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FOREWORD 


计算 机 组 成 (computer organization) 是 指 计算 机 主要 功能 部 件 的 组 成 结构 、 人 逻辑 设计 及 
功能 部 件 间 的 相互 连接 关系 。 计 算 机 系统 结构 (computer architecture) 的 经 典 定义 是 指 程 
序 设计 者 (主要 指 低级 语言 程序 员 或 编译 程序 设计 者 ) 所 看 到 的 计算 机 系统 的 属性 , 即 计 算 
机 的 功能 特性 和 概念 性 结构 ,也 称 指令 集体 系 结构 (Instruction Set Architecture,ISA) , 包 
括 数据 类 型 及 数据 格式 ,指令 格式 , 寻 址 方式 和 可 访问 空间 大 小 ,程序 可 访问 的 寄存 器 个 数 、 
位 数 和 编号 ,控制 寄存 器 的 定义 ,I/O 空间 的 编 址 方式 ,中 断 结构 ,机 器 工作 状态 的 定义 和 切 
换 , 输 入 输出 数据 传送 方式 ,存储 保护 方式 等 。 

本 书 主要 介绍 计算 机 组 成 与 系统 结构 涉及 的 相关 内 容 。 在 计算 机 系统 层次 结构 中 ,这 
些 内 容 位 于 软件 和 硬件 的 结合 处 ,不 仅 涉及 计算 机 硬件 设计 和 指令 系统 设计 ,还 涉及 操作 系 
统 、 编 译 程序 和 程序 设计 等 部 分 软件 设计 技术 ,是 整个 计算 机 系统 中 最 核心 的 部 分 。 

1. 本 书 的 写作 思路 和 内 容 组 织 

计算 机 组 成 与 系统 结构 这 两 部 分 涉及 的 内 容 相互 融合 , 密 不 可 分 。 无 论 是 国内 还 是 国 
外 ,很 多 高 校 都 逐渐 把 计算 机 组 成 原理 和 系统 结构 课程 的 内 容 有 机 结合 起 来 ;甚至 国外 一 些 
经 典 教材 还 把 与 之 密切 相关 的 软件 设计 的 内 容 也 融合 进来 。 这 种 方式 可 以 加 深 读 者 对 计算 
机 软 、 硬 件 系统 的 整体 化 理解 ,并 有 效 地 增强 对 学 生 的 计算 机 系统 设计 能 力 的 培养 。 

本 书 在 总 结 和 借鉴 国外 著名 高 校 使 用 的 教材 教案、 教学 理念 和 教学 方法 的 基础 上 , 力 
图 以 “培养 学 生 现代 计算 机 系统 设计 能 力 ” 为 目标 ,贯彻 “从 程序 设计 视角 出 发 .强调 软 硬 件 
关联 与 协同 .以 CPU 设计 为 核心 ”的 组 织 思路 ,试图 改变 国内 同类 教材 通常 的 就 硬件 讲 硬 
件 、 软 硬件 分 离 的 传统 内 容 组 织 方 式 , 以 系统 化 观点 全 面 地 介绍 计算 机 组 成 和 系统 结构 的 相 
关 知 识 和 技术 。 

为 了 体现 以 上 目标 和 思路 ,本 书 在 以 下 几 个 方面 进行 了 重点 考虑 和 内 容 组 织 : 

(1) 首先 基于 “高 级 语言 程序 一 汇编 语言 程序 一 机 器 指令 序列 一 控制 信号 ?的 路 线 展现 
程序 从 编程 设计 、 转 换 翻 译 到 最 终 在 CPU 上 运行 的 整个 过 程 ;在 此 基础 上 ,用 计算 机 系统 
层次 化 的 观点 阐述 计算 机 组 成 与 系统 结构 课程 在 整个 计算 机 系统 中 的 位 置 、. 内 容 和 作用 ,从 
而 为 清晰 了 解 本 课程 的 内 容 和 作用 、 为 全 面 建立 计算 机 软件 和 硬件 系统 的 整体 概念 打下 
基础 。 

(2) 将 指令 执行 过 程 和 异常 .中 断 、 存 储 访问 、I/O 访问 等 重要 概念 和 技术 结合 起 来 进 
行 介绍 ,力求 清晰 地 说 明 CPU 执行 指令 过 程 中 硬件 与 操作 系统 相互 切换 和 协同 工作 的 处 
理 过 程 ,使 读者 深刻 理解 软 硬 件 系 统 之 间 的 关系 与 协同 工作 过 程 。 
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(3) 在 讲述 与 程序 设计 有 密切 关系 的 体系 结构 内 容 ( 如 数据 表示 、 信 息 存 放 、 操 作 数 寻 
址 .过 程 调用 ,程序 访问 局 部 性 等 ) 时 ,试图 通过 对 硬件 设计 与 程序 设计 的 关系 的 说 明 ,使 读者 
建立 “从 程序 员 视角 理解 计算 机 硬件 系统 设计 ,从 硬件 设计 的 视角 理解 程序 设计 与 执行 ”的 思 
想 ,力图 在 提高 读者 硬件 设计 能 力 的 同时 ,也 增强 其 进行 高 效 的 和 系统 化 的 程序 设计 的 能 力 。 

(4) 在 国内 “计算 机 组 成 原理 ”教材 传统 内 容 基 础 上 增加 指令 流水 线 设 计 的 详细 内 容 ， 
依照 “最 简单 的 IAS 计算 机 CPU 一 总 线 式 CPU-> 单 周期 CPU 一 多 周期 CPU-> 基 本 流水 线 
CPU 一 动态 超标 量 超 流水 线 CPU” 的 次 序 , 循 序 渐进 地 介绍 CPU 设计 技术 及 其 发 展 过 程 ， 
以 MIPS 处 理 器 和 Pentium 4 处 理 器 为 蓝本 ,力图 使 读者 全 面 深入 地 掌握 现代 计算 机 的 
CPU 设计 技术 。 

(5) 结合 指令 流水 线 技术 介绍 基于 流水 线 的 编译 优化 技术 ,使 读者 对 编译 技术 与 指令 
流水 线 实现 技术 之 间 的 密切 关系 有 一 定 的 认识 和 理解 。 

2. 各 章节 主要 内 容 

本 书 共有 9 章 ,各 章 主要 内 容 如 下 : 

第 1 章 ( 计 算 机 系统 概述 ) 主要 介绍 冯 “。 诺 依 曼 结构 的 特点 `. 计 算 机 硬件 的 基本 组 成 、 计 
算 机 软件 设计 和 执行 过 程 、 计 算 机 系统 层次 结构 以 及 系统 性 能 评价 方法 。 

第 2 章 ( 数 据 的 机 器 级 表示 ) 主 要 介绍 无 符号 数 和 带 符号 整数 的 表示 、IEEE 754 浮 点 数 
标准 、 西 文字 符 和 汉字 的 编码 表示 、 大 端 /小 端 存 放 顺 序 及 对 齐 方式 以 及 常用 检 / 纠 错 码 表示 
与 使 用 方法 等 。 

第 3 章 ( 运 算 方法 和 运算 部 件 ) 主要 介绍 各 类 定点 数 和 浮 点 数 的 运算 方法 和 相应 的 运算 
部 件 , 以 及 核心 运算 部 件 ALU 的 功能 和 设计 实现 等 。 

第 4 章 (指令 系统 ) 主 要 介绍 高 级 语言 与 低级 语言 的 关系 .指令 格式 、 操 作 数 类 型 寻 址 
方式 .操作 类 型 .硬件 对 过 程 的 支持 .用 户 程序 在 虚 存 空间 的 配置 和 划分 等 技术 。 

第 5 章 ( 中 央 处 理 器 ) 主 要 介绍 CPU 的 基本 功能 和 内 部 结构 .指令 执行 过 程 、. 数 据 通路 
的 基本 组 成 和 定时 、. 单 周期 和 多 周期 数据 通路 、 硬 连 线 路 和 微 程序 控制 器 .异常 和 中 断 等 概 
念 和 技术 。 

第 6 章 (指令 流水 线 ) 主 要 介绍 指令 流水 线 的 基本 原理 流水 段 寄 存 器 的 概念 ,流水线 数 
据 通路 的 设计 、 流 水 线 的 控制 信和 号、 结构 冒险 及 其 处 理 、 数 据 冒 险 及 其 处 理 、 转 发 技术 ,控制 
冒险 及 其 处 理 ,分支 预 测 原理 、 超 标量 和 动态 流水 线 的 概念 和 技术 。 

第 7 章 ( 存 储 器 分 层 体系 结构 ) 主要 介绍 存储 器 分 层 结构 的 概念 .半导体 存储 器 的 组 织 、 
多 模块 存储 器 ,cache 的 基本 原理 .cache 和 主 存 间 的 映射 关系 及 替换 算法 .虚拟 存储 器 的 基 
本 概念 、 页 表 结 构 、 缺 页 异常 .TLB 的 实现 技术 。 

第 8 章 ( 互 连 及 输入 输出 组 织 ) 主 要 介绍 常用 输入 输出 外 设 和 磁盘 存储 器 的 工作 原理 、 
现代 计算 机 内 部 互 连 结 构 、1/O 接口 的 结构 .1/O 端口 编 址 方式 ,程序 查询 1/O 方式 .中 断 
I/O 方 式 .DMA 方式 以 及 内 核 IO 软件 概述 等 。 

第 9 章 ( 并 行 处 理 系 统 ) 主 要 介绍 UMA( 对 称 ) 多 处 理 器 .CC-NUMA 多 处 理 器 、 片 级 多 
处 理 器 和 多 线程 技术 、 集 群 多 计算 机 、 网 格 多 计算 机 、 向 量 处 理 机 和 SIMD 技术 ,还 对 并 行 处 
理 编程 模型 进行 了 概述 。 

3. 第 2 版 修订 内 容 

近 几 年 来 ,计算 机 组 成 与 系统 结构 领域 发 生 了 一 些 变革 ,一 些 技术 有 了 新 的 发 展 。 为 了 


前 言 


反映 技术 的 进步 ,拓宽 本 领域 知识 的 覆盖 面 ,并 更 加 合理 地 构建 知识 框架 ,本 书 第 2 版 在 第 
1 版 的 基础 上 进行 了 若干 修订 。 

首先 ,对 第 1 版 的 章节 顺序 进行 了 一 些 调整 。 因 为 数据 的 运算 、 指 令 系统 .中 央 处 理 器 
以 及 指令 流水 线 的 关系 比较 密切 ,所 以 将 第 1 版 中 原来 的 第 4 章 存储 器 层次 结构 的 内 容 调 
到 了 指令 流水 线 的 后 面 。 

此 外 ,在 内 容 上 对 一 些 知识 点 进行 了 增删 改 , 主 要 包括 以 下 几 个 方面 。 

(1) 程序 的 开发 和 执行 过 程 。 第 1 章 中 增加 了 对 hello 程序 执行 过 程 的 描述 ,并 举例 对 
程序 和 指令 的 关系 进行 了 说 明 ,同时 还 增加 了 一 个 汉 “， 诺 依 曼 结构 模型 机 ,利用 该 模型 机 对 
指令 的 执行 过 程 进行 了 详细 讲解 。 

(2) 运算 方法 和 运算 部 件 。 对 第 3 章 进 行 了 较 大 的 调整 。 为 了 突出 ALU 中 算术 运算 
所 生成 的 标志 信息 的 作用 ,增加 了 对 带 标 志 加 法 器 的 描述 ;简化 了 对 单 级 先行 进位 加 法 器 、 
两 级 先行 进位 加 法 器 \ 原 码 加 减法 、 移 码 加 减法 、 原 码 两 位 乘法 、 补 码 两 位 乘法 、 原 码 除法 ,十 
进 制 加 减 运 算 等 的 描述 。 

(3) 标志 信息 的 生成 与 使 用 。 第 4 章 中 增强 了 对 标志 信息 处 理 问题 的 说 明 , 增 加 了 
IA-32 指令 系统 中 的 条 件 转 移 指令 功能 描述 ,结合 第 3 章 中 ALU 生成 的 标志 信息 ,比较 透 
彻 地 说 明了 标志 信息 的 生成 与 使 用 问题 。 

(4) 指令 系统 举例 。 第 4 章 中 保留 了 目前 最 流行 的 PC 处 理 器 指令 系统 IA-32, 增 加 了 
媒人 式 处 理 器 指令 系统 ARM ,并 将 Intel 处 理 器 架构 中 的 MMX、SSE 等 SIMD 指令 集 移 到 
了 新 增加 的 第 9 章 中 ,作为 并 行 处 理 技术 的 一 部 分 来 介绍 。 

(5) DRAM 芯片 技术 。 第 7 章 中 增加 了 对 DDR2 和 DDR3 SDRAM 芯片 的 描述 。 

(6) 存储 器 芯片 的 扩展 及 其 与 CPU 的 连接 。 对 第 7 章 中 的 这 部 分 内 容 进行 了 大 幅度 
修订 , 删 去 了 陈旧 的 内 容 和 举例 ,增加 了 目前 系统 中 实际 使 用 情况 的 描述 。 

(7) cache 结构 举例 。 第 7 章 中 增加 了 新 的 多 核 处 理 器 芯片 Core i7 中 cache 结构 的 举例 。 

(8) 系统 总 线 。 系 统 内 部 的 互 连 技术 发 展 非常 快 ,很 多 传统 的 概念 已 经 过 时 ,为 此 ,对 
第 1 版 中 第 8 章 (系统 总 线 ) 的 内 容 进行 了 大 幅度 修改 ,并 将 其 合并 到 后 面 的 输入 输出 组 织 
一 章 中 。 总 线 裁决 ,总 线 定时 、PCI 总 线 标准 和 SCSI 接口 等 内 容 被 取消 或 弱化 。 增 加 了 有 
关 PCI-Express、QPI 等 互 连 技术 的 介绍 。 

(9) 外 部 设备 。 第 8 章 中 删除 或 弱化 了 CRT 显示 器 、 磁 带 存储 器 和 光盘 存储 器 等 内 容 。 

(10) IO 接口 。 第 8 章 中 删除 有 关 IVO 接口 的 分 类 并行 接 口 和 串 行 接口 .VO 接口 的 
举例 的 内 容 。 

(11) 1/O 控制 方式 。 第 8 章 中 删除 了 关于 通道 方式 和 IV/O 处 理 器 方式 的 内 容 。 增 加 
了 对 W/O 子 系统 的 介绍 ,简要 描述 了 从 高 级 语言 层 到 I/O 设备 层 之 间 的 一 个 转换 过 程 。 

(12) 并 行 处 理 系统 。 增 加 了 一 章 专 门 介绍 各 类 并 行 处 理 系 统 的 硬件 结构 以 及 涉及 的 
硬件 互 连 、 软 件 通信 及 并 行 编程 等 技术 问题 。 

4. 关于 本 书 使 用 的 一 些 建议 

本 书 可 作为 “计算 机 组 成 原理 ”课程 的 教材 ,也 可 作为 “计算 机 组 成 原理 实验 ”课程 和 “ 计 
算 机 系统 结构 ”课程 的 教学 参考 书 。 特 别 是 对 于 不 专门 开设 “计算 机 系统 结构 ”课程 的 院 校 ， 
使 用 本 书 作为 “计算 机 组 成 与 系统 结构 ”课程 的 教材 是 比较 合适 的 。 

对 于 本 书 的 使 用 ,具体 建议 如 下 : 
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(1) 课堂 教学 应 以 主干 内 容 为 主 , 力 求 完整 地 给 出 知识 框架 体系 ,并 着 重 讲 清楚 相关 概 
念 之 间 的 联系 。 

(2) 标注 为 * 的 内 容 是 可 以 跳 过 而 不 影响 阅读 连贯 性 的 部 分 ,主要 有 以 下 三 类 : 简单 
易 懂 的 基础 性 内 容 、 具 体 实现 方面 的 细节 内 容 和 在 技术 层面 上 更 加 深入 的 内 容 。 这 些 内 容 
对 深入 理解 课程 的 整体 核心 内 容 是 非常 有 帮助 的 。 因 此 ,在 课时 允许 的 情况 下 ,可 以 选择 其 
中 的 一 部 分 进行 课堂 讲解 ;在 课时 不 允许 的 情况 下 ,也 尽量 安排 学 生 进 行 课 后 阅读 。 

(3) 书 中 每 个 重要 的 知识 点 和 概念 后 面 都 有 一 些 例子 ,可 选择 部 分 重要 的 、 难 懂 的 例子 
在 课堂 上 讲解 ,而 大 部 分 可 留 给 学 生 自 学 。 

(4) 习题 中 列 出 的 概念 术语 基本 涵盖 了 相应 章节 的 主要 概念 ,可 以 让 学 生 对 照 检 查 是 
否 全 部 清楚 其 含义 ;习题 中 列 出 的 简 答 问题 是 相应 章节 重要 的 基本 问题 ,可 以 通过 对 照 检查 
以 判断 学 生 对 相应 章节 内 容 的 掌握 程度 ;对 于 综合 运用 题 , 如 果 与 程序 设计 相关 , 则 可 用 编 
程 方 式 来 求解 或 验证 ,这 样 做 ,对 学 生 深 刻 理解 课程 内 容 有 帮助 。 

(5) 本 书 在 CPU 设计 方面 给 出 了 比较 具体 的 实现 方案 ,相关 内 容 可 以 作为 基于 FPGA 
和 硬件 描述 语言 进行 CPU 设计 实验 的 参考 资料 。 

(6) 书后 给 出 了 部 分 国际 一 流 大 学 相关 课程 网 站 网 址 ,可 以 到 这 些 网 站 找到 课堂 讲义 、 
习题 参考 管 案 以 及 更 多 的 相关 教 辅 资料 。 

5. 作者 及 致谢 
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计算 机 系统 概述 


本 章 主要 介绍 计算 机 的 发 展 历程 .计算 机 系统 的 基本 组 成 和 基本 功能 .计算 机 系统 层次 
化 结构 以 及 计算 机 系统 的 性 能 评价 。 


1.1 计算 机 的 发 展 历程 


“1.1.1 通用 电子 计算 机 的 诞生 


世界 上 第 一 台 通 用 电子 计算 机 是 1946 年 在 美国 诞生 的 ENIAC, 其 设计 师 是 美国 宾 夕 
法 尼 亚 大 学 的 莫 齐 利 (Mauchly) 和 他 的 学 生 艾 克 特 (Eckert) 。 莫 齐 利 1932 年 获得 著名 的 霍 
普 金 斯 大 学 物理 学 博士 学 位 并 留 校 任 教 ,1941 年 转 和 人 宾夕法尼亚 大 学 ,他 常常 为 物理 学 研 
究 中 屡屡 出 现 的 大 量 枯燥 、 烦 琐 的 数学 计算 而 头痛 ,渴望 电子 计算 机 帮忙 。 一 天 ,他 偶然 发 
现 爱 荷 华 州 立 大 学 的 阿 塔 纳 索 夫 教授 正在 试制 电子 计算 机 , 莫 齐 利 深 感 鼓舞 ,立即 启程 拜 
访 。 阿 塔 纳 索 夫 教授 热情 地 接待 了 这 位 志同道合 的 不 速 之 客 , 毫 无 保留 地 介绍 了 研制 情况 ， 
并 无 私 地 把 有 关 电 子 计算 机 设计 的 珍贵 笔记 本 郑重 地 交 给 了 莫 齐 利 。 莫 齐 利 认 真 研究 了 阿 
塔 纳 索 夫 的 方案 , 赁 着 他 特有 的 聪明 才智 ,加 上 雄厚 的 数学 和 物理 基础 以 及 电子 学 方面 的 丰 
富 实践 经 验 , 于 1942 年 写 出 了 一 份 题 为 高速 电子 管 装置 的 使 用 ?的 报告 。 该 报告 很 快 引起 
了 一 个 年 轻 人 一 一 23 岁 的 研究 生 艾 克 特 一 一 的 兴趣 ,于 是 , 师 生 密切 协作 ,开始 了 电子 计算 
机 的 研制 。 当 时 正 值 第 二 次 世界 大 战 期 间 , 军 方 急需 一 种 高 速 电子 装置 来 解决 弹道 的 复杂 
计算 问题 , 莫 齐 利 与 艾 克 特 的 方案 在 1943 年 得 到 了 军 方 的 支持 。 在 汉 。 诺 依 曼 等 人 的 帮助 
下 ,他 们 经 过 两 年 多 的 努力 ,终于 研制 成 了 第 一 台电 子 计 算 机 。1946 年 2 月 ,美国 陆军 军械 
部 与 摩尔 学 院 共同 举行 新 闻 发 布 会 ,宣布 了 第 一 台电 子 计 算 机 ENIAC (Electronic 
Numerical Integrator and Computer, 电 子 数字 积分 机 和 计算 机 ) 研 制 成 功 的 消息 。 

ENIAC 能 进行 每 秒 5000 次 加 法 运算 、 每 秒 400 次 乘法 运算 以 及 平方 和 立方 ,sin 和 cos 
函数 数值 运算 。 当 时 主要 用 它 来 进行 弹道 参数 计算 ,60 秒 钟 射程 的 弹道 计算 时 间 由 原来 的 
20 分 钟 一 下 子 缩短 到 仅 需 30 秒 。ENIAC 是 个 庞然大物 ,耗资 40 多 万 美元 ,使 用 了 18 000 个 
真空 管 , 重 30 吨 , 占 地 面积 170m? , 耗 电 150 千瓦 ,第 一 次 开机 时 甚至 使 整个 费城 地 区 的 照 
明 都 闪烁 变 暗 。 该 机 正式 运行 到 1955 年 10 月 2 日 ,这 十 年 间 共 运行 了 80 223 个 小 时 。 

自从 第 一 台 通用 电子 计算 机 ENIAC 诞生 后 ,人 类 社会 进入 了 一 个 刀 新 的 电子 计算 和 
信息 化 时 代 。 计 算 机 硬件 早期 的 发 展 受 电 子 开关 器 件 的 影响 极 大 ,为 此 ,传统 上 人 们 以 元 器 
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件 的 更 新 作为 计算 机 技术 进步 和 划 代 的 主要 标志 。 
“1.1.2 第 一 代 计 算 机 


第 一 代 计 算 机 (20 世纪 40 年 代 中 到 20 世纪 50 年 代 末 ) 为 电子 管 计 算 机 ,其 逻辑 元 件 
采用 电子 管 , 存 储 器 件 为 声 延 迟 线 或 磁 鼓 ,典型 逻辑 结构 为 定点 运算 。 计 算 机 “软件 ”一 词 尚 
未 出 现 , 编 制程 序 所 用 工具 为 低级 语言 。 电 子 管 计 算 机 体积 大 ,速度 慢 ( 每 秒 千 次 或 万 次 )， 
存储 器 容量 小 。 

1944 年 , 冯 “。 诺 依 曼 在 参加 原子 弹 的 研制 工作 中 遇 到 了 极为 困难 的 计算 问题 。1944 年 
夏 的 一 天 ,他 巧遇 美国 弹道 实验 室 的 军 方 负责 人 戈 尔 斯 坦 , 他 正 参 与 ENIAC 的 研制 工作 ， 
因此 , 冯 “. 诺 依 曼 被 戈 尔 斯 坦 介绍 加 入 ENIAC 研制 组 。 在 设计 和 研制 ENIAC 过 程 中 , 研 
制 小 组 意识 到 ENIAC 还 存在 很 多 问题 ,例如 ,没有 存储 器 ,也 没有 采用 二 进 制 。1945 年 ,在 
共同 讨论 的 基础 上 , 冯 “。 诺 依 曼 以 (关于 EDVAC 的 报告 草案 ) 为 题 ,起 草 了 长 达 101 页 的 总 
结 报告 ,发 表 了 全 新 的 “存储 程序 (stored-program) 通 用 电子 计算 机 方案 ,宣告 了 现代 计算 
机 结构 思想 的 诞生 。 

“存储 程序 ?方式 的 基本 思想 是 : 必须 将 事先 编 好 的 程序 和 原始 数据 送 入 主 存 后 才能 执 
行程 序 , 一 旦 程序 被 启动 执行 ,计算 机 能 在 不 需 操作 人 员 干 预 下 自动 完成 逐条 取出 指令 并 执 
行 的 任务 。 

汉 “， 诺 依 曼 及 其 同事 在 普林斯顿 高 级 研究 院 (Institute for Advance Study,IAS) 于 
1946 年 开始 设计 “存储 程序 ”计算 机 ,该 机 被 称 


























为 IAS 计算 机 , 它 是 后 来 通用 计算 机 的 原型 。 A dE ope 
IAS 计算 机 基本 结构 如 图 1. 1 所 示 , 包 仿 | 役 备 
5 个 部 件 : 算术 逻辑 单元 ( 即 运算 器 )、 程 序 控制 程序 控制 器 





器 \ 主 存储 器 、 输 入 设备 和 输出 设备 。 整 个 计算 图 1.1 IAS 计 算 机 基本 结构 
机 以 主 存 储 器 为 中 心 ,程序 和 数据 首先 输入 到 
运算 器 ,然后 保存 到 主 存 。 程 序 运行 时 ,从 主 存 调 出 指令 ,在 程序 控制 器 和 运算 器 中 执行 , 执 
行 的 中 间 结 果 送 主 存 保存 ,最 终结 果 送 输出 设备 。 

英国 剑桥 大 学 的 M. V. Wilkes 在 EDVAC 方案 启发 下 ,于 1949 年 制造 成 功 的 EDSAC 
成 为 世界 上 第 一 台 “ 存 储 程序 ” 式 的 现代 计算 机 ,而 IAS 计算 机 直到 1951 年 才 告 完成 。 此 
外 , 尚 有 1951 年 的 UMVAC-1 和 1956 年 的 IBM 704 等 也 都 属于 第 一 代 计 算 机 。 


“1.1.3 第 二 代 计 算 机 


第 二 代 计 算 机 (20 世纪 50 年 代 中 后 期 到 20 世纪 60 年 代 中 ) 为 晶体 管 计算 机 。1947 年 ， 
美国 贝尔 实验 室 的 三 位 科学 家 William Shockley、John Bardeen、 Walter Brattain 发 明了 唱 
体 管 ,为 计算 机 的 发 展 提供 了 新 的 技术 基础 。 该 实验 室 于 1954 年 研制 了 晶体 管 计算 机 
TRADIC ,而 麻 省 理工 学 院 于 1957 年 完成 的 TX-2 对 晶体 管 计算 机 的 发 展 起 了 重要 作用 。 
IBM 公司 于 1955 年 宣布 的 全 晶体 管 计算 机 7070 和 7090 开启 了 第 二 代 计 算 机 莲 勃 发 展 的 
新 时 期 ,特别 是 1959 年 IBM 公司 推出 的 商用 机 IBM 1401 ,更 以 其 小 巧 价 廉 和 面向 数据 处 
理 的 特性 而 获得 广大 用 户 的 欢迎 ,从 而 促进 了 计算 机 工业 的 迅速 发 展 。 

这 一 代 计 算 机 除了 逻辑 元 件 采 用 晶体 管 以 外 ,其 内 存 采用 磁 芯 存储 器 ,外 存 采用 磁 鼓 与 
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磁带 存储 器 ,实现 了 浮 点 运算 ,并 在 系统 结构 方面 提出 了 变 址 、 中 断 ,I/O 处 理 器 等 新 概念 。 
这 时 计算 机 软件 也 得 到 了 发 展 ,出 现 了 多 种 高 级 语言 及 其 编译 程序 。 和 第 一 代 电子 管 计算 
机 相 比 ,第 二 代 晶 体 管 计 算 机 体积 小 .速度 快 、 功 耗 低 .可 靠 性 高 。 


“1.1.4 第 三 代 计 算 机 


第 三 代 计 算 机 (20 世纪 60 年 代 中 到 20 世纪 70 年 代 中 后 期 ) 为 集成 电路 计算 机 。1958 年 
德州 仪器 公司 的 工程 师 Jack Kilby 和 仙 童 半导体 公司 的 工程 师 Robert Noyce 几乎 同时 各 
自 独立 发 明了 集成 电路 ,为 现代 计算 机 的 发 展商 定 了 革命 性 的 基础 ,使 得 计算 机 的 逻辑 元 件 
与 存储 器 均 可 由 集成 电路 实现 。 集 成 电路 的 应 用 是 微 电 子 与 计算 机 技术 相 结合 的 一 大 突 
破 , 为 构 作 运算 速度 快 .价格 低 、 容 量 大 、 可 靠 性 高 .体积 小 、 功 耗 低 的 各 类 计算 机 提供 了 技术 
条 件 。1964 年 IBM 公司 宣布 世界 上 第 一 个 采用 集成 电路 的 通用 计算 机 IBM 360 系统 研制 
成 功 , 该 系统 的 发 布 是 计算 机 发 展 史上 具有 重要 意义 的 事件 。 该 系统 采用 了 一 系列 计算 机 
新 技术 ,包括 微 程 序 控制 ,高速 缓存 .虚拟 存储 器 和 流水 线 技术 等 ;一 次 就 推出 了 6 种 机 型 ， 
它们 相互 兼容 ,可 广泛 应 用 于 科学 计算 .数据 处 理 等 领域 ;在 软件 方面 首先 实现 了 操作 系统 ， 
具有 资源 调度 .人 机 通信 和 输入 输出 控制 等 功能 。IBM 360 系列 的 诞生 对 计算 机 的 普及 应 
用 和 大 规模 工业 化 生产 产生 了 重大 影响 ,到 1966 年 底 , 其 产量 已 达到 每 月 400 台 ,5 年 内 总 
产量 超过 33 000 台 。 

这 一 时 期 还 出 现 了 另外 一 个 重要 特点 , 即 大 型 /巨型 机 与 小 型 机 同时 发 展 。1964 年 的 
CDC 6600 及 随后 的 CDC 7600 和 CYBER 系列 是 大 型 机 代表 ;巨型 机 有 CDC STAR-100 和 
64 个 单元 并 行 操作 的 ILLIAC 阵列 机 等 ;同时 小 型 计算 机 也 得 到 很 大 发 展 ,典型 的 有 
DEC 公司 的 PDP 系列 。 


“1.1.5 第 四 代 计 算 机 


第 四 代 计 算 机 (20 世纪 70 年 代 后 期 开始 ) 为 超大 规模 集成 电路 计算 机 。20 世纪 70 年 
代 初 , 随 着 微 电 子 学 飞速 发 展 而 产生 的 大 规模 集成 电路 和 微 处 理 器 给 计算 机 工业 注入 了 新 
鲜血 液 。 其 后 ,大 规模 集成 电路 (LSID 和 超大 规模 集成 电路 (VLSI) 成 为 计算 机 的 主要 器 件 ， 
其 集成 度 从 20 世纪 70 年 代 初 的 几 千 个 晶体 管 / 片 ( 如 Intel 4004 为 2000 个 晶体 管 ) 到 20 世 
纪 末 的 千 万 个 晶体 管 / 片 。 以 最 大 的 微 处 理 器 制造 商 Intel 公司 的 产品 为 例 ( 见 表 1. 1) ,可 
以 看 出 ,半导体 集成 电路 的 集成 度 越 来 越 高 ,速度 也 越 来 越 快 ,其 发 展 遵循 以 下 摩尔 定律 : 
由 于 硅 技 术 的 不 断 改进 ,每 18 个 月 ,集成 度 将 翻 一 番 , 速 度 将 提高 一 倍 ,而 其 价格 将 降低 一 
半 。 戈 登 . 摩尔 (Golden Moore) 是 Intel 公司 的 创始 人 之 一 ,摩尔 定律 是 摩尔 在 1965 年 接 
受 美国 (电子 杂志 的 总 编 采 访 时 对 半导体 芯片 工业 发 展 前 景 的 预测 , 近 50 年 来 的 实践 证 
明 ,摩尔 定律 的 预测 是 基本 准确 的 。 

随 着 超大 规模 集成 电路 与 微 处 理 器 技术 的 长 足 进 步 和 现代 科学 技术 对 提高 计算 能 力 的 
强烈 要 求 ,并 行 处 理 技术 的 研究 与 应 用 以 及 众多 巨型 机 的 产生 也 成 为 这 一 时 期 计算 机 发 展 
的 特点 。1976 年 ,Cray 公司 推出 的 Cray-1 向 量 巨 型 机 具有 12 个 功能 部 件 , 运 算 速 度 达 每 
秒 1.6 亿 次 浮 点 运算 。 不 少 巨型 机 采用 成 百 上 千 个 高 性 能 处 理 器 组 成 大 规模 并 行 处 理 系 
统 , 其 峰值 速度 已 达到 每 秒 几 千 亿 或 万 亿 次 ,这 种 并 行 处 理 技术 成 为 20 世纪 90 年 代 巨 型 机 
发 展 的 主流 。 
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表 1.1 Intel CPU 芯片 性 能 比较 






































芯 片 名 年 份 集成 度 主 频 范围 线 宽 数据 总 线 宽 | 地 址 总 线 宽 
(晶体 管 数 量 ) /MHz /pm /位 /位 
4004 1971 2300 0.74 2 4 
8080 1974 8000 4 1.5 8 16 
8086 1978 2.9 万 4.77 | 16 20 
80286 1984 13.5 契 6~25 1~1.5 16 24 
80386 1985 27.5 万 20 一 33 1~1.5 32 32 
80486 1989 118:5 万 33 一 100 1 32 32 
Pentium 1993 300 万 60 一 133 0.6 64 32 
Pentium Pro(P6) 1995 550 万 150 一 233 0.6 64 32 
Pentium I[ (P6+ MMX) 1997 750 万 233 一 400 0.35 64 32 
Pentium 焉 1999 950 万 450~1000 0.25 64 32 
Pentium 4 2000 4200 万 1500 一 3800 | 0.18 64 32 
Core i7 2010 117 000 万 3333 0.032 64 64 




















第 四 代 计 算 机 时 期 的 另 一 个 重要 特点 是 计算 机 网 络 的 发 展 与 广泛 应 用 。 由 于 计算 机 技 
术 与 通信 技术 的 高 速 发 展 与 密切 结合 ,掀起 了 网 络 热潮 ,大 量 的 计算 机 联 入 不 同 规模 的 网 络 
中 ,然后 通过 Internet 与 世界 各 地 的 计算 机 相 联 ,大 大 扩展 和 加 速 了 信息 的 流通 ,增强 了 社 
会 的 协调 与 合作 能 力 ,使 计算 机 的 应 用 方式 也 由 个 人 计算 方式 向 网 络 化 方向 发 展 。 

由 于 计算 机 在 技术 发 展 和 使 用 方式 上 的 不 断 进 步 ,目前 学 术 界 和 工业 界 大 多 已 不 再 沿 
用 传统 以 元 器 件 划 分 “第 X 代 计算 机 ”的 提 法 。 

近 70 年 来 ,人 们 使 用 计算 机 的 方式 发 生 了 巨大 变化 。 早 先是 多 人 共享 一 台 计 算 机 (分 
时 计算 方式 ) ,然后 是 一 人 使 用 一 台 计 算 机 (个 人 计算 方式 ), 进 而 发 展 到 目前 多 人 使 用 多 台 
计算 机 的 网 络 计算 方 式 ,也 就 是 后 PC 时 代 和 大 数据 并 行 计算 时 代 。 


1.2 计算 机 系统 的 基本 组 成 


通常 所 说 的 计算 机 系统 ,除了 包括 看 得 见 的 计算 机 硬件 之 外 ,还 包括 运行 在 计算 机 
硬件 上 的 软件 。 即 ,计算 机 系统 由 硬件 和 软件 两 部 分 组 成 。 硬 件 是 具体 物理 装置 的 总 
称 , 人 们 看 到 的 各 种 局 片 、 板 卡 、 外 设 、 电 缆 等 都 是 计算 机 硬件 。 软 件 包括 运行 在 硬件 上 
的 程序 和 数据 以 及 相关 的 文档 。 程 序 是 指挥 计算 机 如 何 操作 的 一 个 指令 序列 ,数据 是 指 
令 操 作 的 对 象 。 


1.2.1 计算 机 硬件 


从 20 世纪 40 年 代 通 用 电子 计算 机 诞生 以 来 ,尽管 硬件 技术 已 经 经 历 了 4 个 发 展 阶段 ， 
计算 机 体系 结构 也 已 经 取得 了 很 大 的 发 展 ,但 绝 大 部 分 计算 机 的 基本 组 成 仍然 具有 冯 。 诺 
依 曼 结构 计算 机 的 特征 ,其 基本 思想 主要 包括 以 下 几 个 方面 。 

(1) 采用 “存储 程序 ”工作 方式 。 
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(2) 计算 机 由 运算 器 控制 器 存储器、 输入 设备 和 输出 设备 5 个 基本 部 件 组 成 。 

(3) 存储 器 不 仅 能 存放 数据 ,而 且 也 能 存放 指令 ,形式 上 数据 和 指令 没有 区 别 , 但 计算 
机 应 能 区 分 它们 ;控制 器 应 能 控制 指令 的 自动 执行 ;运算 器 应 能 进行 加 、 减 、 乘 、 除 4 种 基本 
算术 运算 ,并 且 也 能 进行 逻辑 运算 ;操作 人 员 可 以 通过 输入 输出 设备 使 用 计算 机 。 

(4) 计算 机 内 部 以 二 进 制 形式 表示 指令 和 数据 ;每 条 指令 由 操作 码 和 地 址 码 两 部 分 组 
成 ,操作 码 指出 操作 类 型 ,地 址 码 指出 操作 数 的 地 址 ;由 一 串 指令 组 成 程序 。 

计算 机 硬件 主要 包括 中 央 处 理 器 、 存 储 器 、1/O 控制 器 .外 部 设备 和 各 类 总 线 等 。 

中 央 处 理 器 (Central Processing Unit,CPU) 有 时 简称 为 处 理 器 ,是 整个 计算 机 的 核心 
部 件 , 主 要 用 于 指令 的 执行 。CPU 主要 包含 两 种 基本 部 件 : 数据 通路 和 控制 器 。 数 据 通路 
主要 包含 算术 逻辑 部 件 和 通用 寄存 器 等 ,其 功能 是 用 来 执行 算术 和 逻辑 运算 等 操作 。 控 制 
器 用 来 对 指令 进行 译 码 ,生成 相应 的 控制 信号 ,以 控制 数据 通路 进行 正确 的 操作 。 

存储 器 分 为 内 存 和 外 存 , 内 存 包 括 主 存储 器 (main memory, 简称 主 存 ) 和 高 速 缓存 
(cache) 。 因 为 早期 计算 机 中 没有 高 速 缓存 ,所 以 ,一 般 情 况 下 ,并 不 区 分 内 存 和 主 存 , 两 者 
含义 相同 ,都 是 特 指 主 存储 器 。 外 存 包括 辅助 存储 器 和 海量 后 备 存 储 器 。 通 常 把 系统 运行 
时 直接 和 主 存 交换 信息 的 存储 器 称 为 辅助 存储 器 ,简称 辅 存 ,目前 主要 的 辅助 存储 器 是 磁盘 
存储 器 和 固态 硬盘 。 

外 部 设备 简称 为 外 设 ,也 称 为 IO 设备 ,其 中 ,I/O 是 输入 输出 (Input/Output) 的 缩写 。 
外 设 通 常 由 机 械 部 分 和 电子 部 分 组 成 ,而 且 两 部 分 通常 是 可 以 分 开 的 ,机 械 部 分 是 外 部 设备 
本 身 , 而 电子 部 分 则 是 控制 外 部 设备 的 I/O 控制 器 或 IO 适配器 。 外 设 通过 I/O 控制 器 或 
LV/O 适配器 连接 到 主机 上 ,I/O 控制 器 或 I/O 适配器 统称 为 设备 控制 器 。 例 如 ,键盘 接口 、 
打印 机 适配器 .显示 控制 器 (简称 显卡 )、 网 络 控制 器 (简称 网 卡 ) 等 都 是 设备 控制 器 ,属于 一 
种 1/0 模块 (也 称 I/O 接口 )。 

总 线 (bus) 是 传输 信息 的 介质 ,用 于 在 部 件 之 间 传 输 信息 ,CPU 、 主 存 和 I/O 模块 通过 
总 线 互 连 ,在 CPU 和 I/O 模 块 中 都 内 含 相 应 的 存储 部 件 , 即 缓存 器 。 

图 1. 2 是 一 个 典型 的 多 总 线 计算 机 系统 的 硬件 结构 示意 图 。 其 中 CPU 包含 控制 器 、 算 
术 逻 辑 部 件 (Arithmetic and Logic Unit, ALU) .寄存 器 堆 (register file, 也 称 通用 寄存 器 组 
或 寄存 器 文件 ) ,总 线 接口 部 件 等 ,CPU 通过 处 理 器 总 线 、1/O 桥接 器 等 与 主 存储 器 和 输入 
输出 设备 交换 信息 ; 主 存 通 过 存储 器 总 线 、1/O 桥接 器 与 CPU 和 输入 输出 设备 交换 信息 ; 
LI/O 设备 通过 各 自 的 外 设 控制 器 或 适配器 连 到 I/O 总 线 上 ,例如 ,可 以 把 鼠标 和 键盘 连接 到 
USB 控制 器 的 接口 上 ,显示 器 连接 到 显示 适 配 卡 的 接口 上 。 在 一 个 IO 总 线 上 可 以 设置 多 
个 I/O 扩展 槽 ,以 连接 更 多 的 外 设 。 

ALU 是 数据 处 理 部 件 , 用 于 执行 数据 的 算术 和 逻辑 运算 ,ALU 处 理 的 数据 来 自 寄 存 器 
堆 ;磁盘 和 主 存 是 存储 部 件 , 分 别 用 于 存储 长 期 保存 信息 和 临时 保存 信息 ;各 类 总 线 以 及 总 
线 接口 部 件 .1/O 桥接 器 1/O 扩展 槽 、I/O 控制 器 和 显示 适配器 等 都 是 互 连 部 件 , 用 于 完成 
数据 传送 任务 。 所 有 这 些 部 件 的 操作 都 通过 CPU 中 的 控制 器 对 指令 译 码 后 送出 的 控制 信 
号 的 控制 来 完成 。 

从 外 部 来 看 ,普通 台式 个 人 计算 机 (PC) 是 用 各 种 电缆 将 显示 器 、 键 盘 、 鼠 标 和 机 箱 等 连 
接 而 成 的 一 个 装置 。 打 开 一 台 普 通 台 式 机 的 机 箱 后 ,看 到 的 是 如 图 1. 3 所 示 的 一 组 电路 板 、 
芯片 和 连 线 ,有 主板 、 电 源 、 风 扇 和 硬盘 驱动 器 等 。 
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图 1.3 台式 个 人 计算 机 机 箱 内 的 部 件 


图 1.4 是 个 人 计算 机 主板 ,其 中 有 一 个 处 理 器 芯片 插座 ,用 于 插入 相应 的 CPU 芯片 , 通 
过 PCI 和 PCIeX16 等 总 线 插 槽 可 连接 相应 外 设 ,内 存 条 也 可 插入 插 槽 进行 扩充 和 更 换 。 

图 1.5 是 对 计算 机 硬件 进行 解剖 的 示意 图 ,显示 了 一 台 个 人 计算 机 的 硬件 结构 分 解 过 
程 。 计 算 机 主机 由 多 个 电路 板 用 总 线 连接 而 成 ,每 个 电路 板 上 又 焊接 了 多 个 集成 电路 芯片 ， 
每 个 芯片 中 有 十 几 个 电路 模块 ,每 个 模块 中 有 上 千 万 个 单元 ,每 个 单元 中 有 几 个 门 电路 ,每 
个 门 电路 实现 基本 的 逻辑 运算 。 因 为 计算 机 中 所 有 信息 都 采用 二 进 制 编 码 表示 ,二 进 制 的 
1 和 0 对 应 逻辑 值 * 真 ”和 "* 假 ”, 可 方便 地 通过 逻辑 运算 电路 来 实现 算术 运算 。 

图 1.6 是 Pentium 4 处 理 器 芯片 的 内 部 结构 示意 图 。 左 边 是 芯片 的 显 微 照 片 ,右边 是 
功能 模块 。Pentium 4 处 理 器 芯片 中 除了 整数 运算 数据 通路 外 ,还 集成 了 浮 点 运算 数据 通 
路 和 多 媒体 处 理 数据 通路 ;Pentium 4 处 理 器 将 L1 cache( 包 括 指令 cache 和 数据 cache) 和 
L2 cache 都 做 在 了 CPU 芯片 内 。 此 外 ,还 有 具有 支持 高 级 流水 线 和 超 线程 的 部 件 , 以 及 用 
于 LV/O 访问 和 存储 器 访问 的 接口 部 件 。 
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图 1.4 台式 个 人 计算 机 主板 





全 r 一 别 一 国 二 


个 人 计算 机 由 
Ey > 主机 中 包含 每 个 电路 板 上 有 5 
主机 和 外 设 组 成 人 十 几 个 集成 电路 。 每 个 集成 电路 中 


有 十 几 个 模块 


每 个 门 电路 实现 
基本 过 辑 运 算 ” 霓 - 





所 有 信息 都 用 


每 个 模块 中 有 
二 进 制 编码 表示 


每 个 单元 由 几 个 。 上 万 个 单元 
门 电路 组 成 
图 1.5 个 人 计算 机 的 硬件 结构 解剖 









































控制 器 
控制 器 IO 接口 
部 件 
指令 cache 
数据 
cache 
增强 的 浮 点 和 
部 整数 
多 媒体 部 件 | 数据 通路 | L2 cache 
和 主 存 接 
控制 器 口 部 件 
高 级 流水 线 和 3 和 | 
超 线程 支持 。 | 控制 器 

















图 1.6 Pentium 4 处理 器 芯片 的 内 部 组 成 
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1.2.2 计算 机 软件 


计算 机 的 工作 由 存储 在 其 内 部 的 程序 控制 ,这 是 汉 。 诺 依 曼 结构 计算 机 “存储 程序 ” 工 
作 方 式 的 重要 特征 ,因此 程序 或 者 软件 质量 的 好 坏 将 大 大 影响 计算 机 性 能 的 发 挥 。 

软件 的 发 展 受 计算 机 硬件 和 计算 机 应 用 的 推动 和 制约 ,其 发 展 过 程 大 致 分 3 个 阶段 。 

从 第 一 台 计 算 机 上 的 第 一 个 机 器 代码 程序 出 现 到 实用 的 高 级 语言 出 现 为 第 一 阶段 
(1946 一 1956 年 )。 这 时 期 的 计算 机 应 用 以 科学 计算 为 主 ,计算 量 较 大 ,但 输入 输出 量 不 大 ; 
机 器 以 CPU 为 中 心 ,存储 器 较 小 ;直接 采用 机 器 语言 编程 ,因而 程序 设计 与 编制 工作 复杂 、 
繁琐 、 易 出 错 。 这 时 尚未 出 现 软件 一 词 。 

从 实用 的 高 级 程序 设计 语言 出 现 到 软件 工程 概念 出 现 以 前 这 段 时 间 为 第 二 阶段 
(1956 一 1968 年 )。 这 时 期 除了 科学 计算 外 ,还 出 现 了 大 量 数据 处 理 问题 ,计算 量 不 大 ,但 输 
入 输出 量 较 大 。 机 器 结构 转向 以 存储 器 为 中 心 , 出 现 了 大 容量 存储 器 ,输入 输出 设备 增加 ， 
软件 概念 也 开始 出 现 。 为 了 充分 利用 处 理 器 、 存 储 器 和 输入 输出 等 计算 机 资源 ,出 现 了 操作 
系统 ;为 了 提高 编程 工作 效率 ,出 现 了 高 级 语言 ;为 了 适应 大 量 的 数据 处 理 , 出 现 了 数据 库 及 
其 管理 系统 。 随 着 软件 规模 和 复杂 性 的 不 断 提高 ,软件 开发 过 程 中 ,甚至 出 现 了 人 们 难以 控 
制 的 局 面 , 即 所 谓 软 件 危 机 。 为 了 克服 这 种 危机 ,人 们 研究 和 采用 了 很 多 技术 方法 ,这 就 导 
致 了 软件 工程 ?概念 和 方法 的 出 现 。 

软件 工程 出 现 以 后 至 今 一 直 处 于 第 三 阶段 。 对 于 一 些 复杂 的 大 型 软件 ,基于 个 人 和 简单 
团队 分 工 的 传统 开发 方式 进行 开发 不 仅 效 率 低 、 可 靠 性 差 , 且 很 难 完成 ,必须 采用 工程 方法 才 
能 实现 。 为 此 ,从 20 世纪 60 年 代 末 开始 ,软件 工程 技术 得 到 了 迅速 的 发 展 ,出 现 了 “计算 机 辅 
助 软件 设计 ”“ 软 件 自动 化 ”等 技术 方法 和 实验 系统 。 目 前 ,人 们 除了 研究 改进 软件 开发 技术 
外 ,还 着 重 研 究 具有 智能 化 、 自 动 化 、 集 成 化 并行 化 以 及 自然 化 特征 的 软件 新 技术 。 

根据 软件 的 用 途 ,一般 将 软件 分 成 系统 软件 和 应 用 软件 两 大 类 。 系 统 软件 包括 为 有 效 、 
安全 地 使 用 和 管理 计算 机 以 及 为 开发 和 运行 应 用 软件 而 提供 的 各 种 软件 , 介 于 计算 机 硬件 
与 应 用 程序 之 间 , 它 与 具体 应 用 关系 不 大 。 系 统 软 件 包括 操作 系统 (如 Windows) .语言 处 
理 系统 (如 C 语言 编译 器 ) .数据库 管理 系统 (如 Oracle) 和 各 类 实用 程序 (如 磁盘 碎片 整理 
程序 、 备 份 程序 ) 。 操 作 系统 主要 用 来 管理 整个 计算 机 系统 的 各 种 资源 ,包括 对 它们 进行 调 
度 、 管 理 , 监 视 和 服务 等 ,操作 系统 还 提供 计算 机 用 户 和 硬件 之 间 的 人 机 交互 界面 ,并 提供 对 
应 用 软件 的 支持 ;语言 处 理 系 统 主要 用 于 提供 一 个 用 高 级 语言 编程 的 环境 ,包括 源 程 序 编 
辑 、 翻 译 ,调试 链接 、 装 入 运行 等 功能 ;数据 库 管理 系统 是 一 种 用 于 建立 、 使 用 和 维护 数据 库 
的 软件 系统 。 

专门 为 数据 处 理 , 科 学 计算 ,事务 管理 ,多 媒体 处 理 、 工 程 设计 以 及 过 程控 制 等 应 用 所 编 
写 的 各 类 程序 都 称 为 应 用 软件 。 例 如 ,人 们 平时 经 常 使 用 的 电子 邮件 收发 软件 .播放 软件 、 
游戏 软件 、 炒 股 软件 、 文 字 处 理 软 件 、 电 子 表格 软件 、 演 示 文 稿 制作 软件 等 都 是 应 用 软件 。 


1.3 计算 机 系统 的 层次 结构 


计算 机 系统 是 一 个 层次 结构 系统 ,通过 向 上 层 用 户 提供 一 个 抽象 的 简洁 接口 而 将 较 低 
层次 的 实现 细节 隐藏 起 来 。 计 算 机 解决 应 用 问题 的 过 程 就 是 不 同 抽象 层 进行 转换 的 过 程 。 


计算 机 系统 硫 太 


1.3.1 计算 机 系统 抽象 层 的 转换 
图 1.7 是 计算 机 系统 层次 转换 示意 图 ,描述 了 从 最 终 用 户 希望 计算 机 完成 的 应 用 ( 问 


eeep tei me 最 终 用 户 
希望 计算 机 完成 或 解决 的 任何 一 个 应 用 ( 问 软件 [一 一 太 可 (请 。””) | 程序 员 
题 ) 最 开始 形成 时 是 用 自然 语言 描述 的 ,但 是 , 计 操作 系统 /虚拟 机 
算 机 硬件 只 能 理解 机 器 语言 ,而 要 将 一 个 自然 语 。” 十 (指令 集体 系 结构 (SA) 
言 描述 的 应 用 问题 转换 为 机 器 语言 程序 ,需要 经 微 体系 结构 架构 师 
过 多 个 抽象 层 的 转换 。 硬件 | 功能 部 件 RTL 
首先 ,将 应 用 问题 转换 为 算法 (algorithm) 描 一 一 一 电子 工程 师 

















述 ,使 得 应 用 问题 的 求解 变 成 流程 化 的 清晰 步 “一 
怠 , 并 能 确保 步骤 是 有 限 的 。 任 何 一 个 问题 可 能 。 ”图 1.” 计算 机 系统 抽象 层 及 其 转换 
有 多 个 求解 算法 ,需要 进行 算法 分 析 以 确定 哪 种 
算法 在 时 间 和 空间 上 能 够 得 到 优化 。 

其 次 ,将 算法 转换 为 用 编程 语言 描述 的 程序 (program) ,这 个 转换 通常 是 手工 进行 的 ， 
也 就 是 说 ,需要 程序 员 进 行程 序 设计 。 编 程 语 言 (programming language) 与 自然 语言 不 同 ， 
它 有 严格 的 执行 顺序 ,不 存在 二 义 性 ,能 够 唯一 地 确定 计算 机 执行 指令 的 顺序 。 编 程 语言 
以 分 成 各 类 不 同 抽象 层 的 、 适 用 于 不 同 领域 的 .采用 不 同 描述 结构 的 ,等 等 。 目 前 大 约 有 上 
千 种 编程 语言 。 从 抽象 层次 上 来 分 ,可 以 分 成 高 级 语言 和 低级 语言 两 类 。 高 级 语言 (high- 
level language) 和 底层 计算 机 结构 关联 不 大 ,是 机 器 无 关 语言 ,大 部 分 编程 语言 都 是 高 级 语 
言 ;低级 语言 (low-level language) 则 和 运行 程序 的 计算 机 的 底层 结构 密切 相关 ,通常 称 为 机 
器 级 语言 (machine-level language), 机 器 语言 和 汇编 语言 都 是 机 器 级 语言 。 机 器 语言 
(machine language) 就 是 用 二 进 制 进行 编码 的 机 器 指令 (instruction) ,每 条 机 器 指令 都 是 一 
个 0/1 序 列 ,因此 ,机 器 语言 程序 的 可 读 性 很 差 ,也 不 易 记 忆 , 给 程序 的 编写 和 阅读 带 来 极 大 
的 困难 。 因 此 ,人 们 引入 了 一 种 机 器 语言 的 符号 表示 语言 ,通过 用 简短 的 英文 符号 和 二 进 制 
代码 建立 对 应 关系 ,以 方便 程序 员 编 写 和 阅读 机 器 语言 程序 ,这 种 语言 被 称 为 汇编 语言 
(assembly language) 。 因 为 高 级 语言 的 可 读 性 比 低级 语言 可 读 性 好 得 多 ,所 以 , 绝 大 部 分 程 
序 员 使 用 高 级 语言 编写 程序 。 

然后 ,将 高 级 语言 程序 转换 成 计算 机 能 够 理解 的 机 器 语言 程序 。 因 为 这 个 转换 过 程 是 
计算 机 自动 完成 的 ,因而 需要 有 能 够 执行 自动 转换 的 程序 ,我们 把 进行 这 种 转换 的 软件 统称 
为 “程序 设计 语言 处 理 系统 ”。 通 常 ,程序 员 借助 “程序 设计 语言 处 理 系统 ?来 开发 软件 。 任 
何 一 个 语言 处 理 系统 中 ,都 包含 一 个 翻译 程序 (translator), 它 能 把 一 种 编程 语言 表示 的 程 
序 转换 为 等 价 的 另 一 种 编程 语言 程序 。 被 翻译 的 语言 和 程序 分 别 被 称 为 源 语 言 和 源 程序 ， 
翻译 生成 的 语言 和 程序 分 别 被 称 为 目标 语言 和 目标 程序 。 翻 译 程序 有 以 下 3 类 。 

(1) 汇编 程序 (assembler) : 也 称 汇编 器 ,用 来 将 汇编 语言 源 程序 翻译 成 机 器 语言 目标 
程序 。 

(2) 解释 程序 (interpreter) : 也 称 解 释 器 ,用 来 将 源 程序 中 的 语句 按 其 执行 顺序 逐条 翻 
译 成 机 器 指令 并 立即 执行 。 
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(3) 编译 程序 (compiler) : 也 称 编译 器 ,用 来 将 高 级 语言 源 程序 翻译 成 汇编 语言 或 机 器 
语言 目标 程序 。 

当然 ,所 有 的 语言 处 理 系统 都 必须 在 操作 系统 提供 的 计算 机 环境 中 运行 ,操作 系统 是 对 
计算 机 底层 结构 和 计算 机 硬件 的 一 种 抽象 ,这 种 抽象 构成 了 一 台 可 以 让 程序 员 使 用 的 虚拟 
机 (virtual machine)。 

从 应 用 问题 到 机 器 语言 程序 的 每 次 转换 所 涉及 的 概念 都 属于 软件 的 范畴 ,而 机 器 语言 
程序 所 运行 的 计算 机 硬件 和 软件 之 间 需 要 有 一 个 “桥梁 ”, 这 个 在 软件 和 硬件 之 间 的 界面 就 
是 指令 集体 系 结构 (Instruction Set Architecture, ISA) ,简称 体系 结构 或 系统 结构 
(architecture) , 它 是 软件 和 硬件 之 间接 口 的 一 个 完整 定义 。ISA 定义 了 一 台 计算 机 可 以 执 
行 的 所 有 指令 的 集合 ,每 条 指令 规定 了 计算 机 执行 什么 操作 ,所 处 理 的 操作 数 存放 的 地 址 空 
间 以 及 操作 数 类 型 。ISA 规定 的 内 容 包 括 数据 类 型 及 格式 ,指令 格式 , 寻 址 方式 和 可 访问 地 
址 空间 大 小 ,程序 可 访问 的 寄存 器 个 数 、 位 数 和 编号 ,控制 寄存 器 的 定义 ,I/O 空间 的 编 址 方 
式 , 中 断 结 构 , 机 器 工作 状态 的 定义 和 切换 ,输入 输出 结构 和 数据 传送 方式 ,存储 保护 方式 
等 。 因 此 ,可 以 看 出 ,指令 集体 系 结构 是 指 软 件 能 感知 到 的 部 分 ,也 称 软件 可 见 部 分 。 

机 器 语言 程序 就 是 一 个 ISA 规定 的 指令 的 序列 ,因此 ,计算 机 硬件 执行 机 器 语言 程序 
的 过 程 就 是 让 其 执行 一 条 一 条 指令 的 过 程 。ISA 是 对 指令 系统 的 一 种 规定 或 结构 规范 , 具 
体 实 现 的 组 织 Corganization ) 称 为 微 体 系 结构 (microarchitecture) , 简称 微 架 构 。ISA 和 微 
体系 结构 是 两 个 不 同 层面 上 的 概念 , 微 体系 结构 是 软件 不 可 感知 的 部 分 。 例 如 ,加 法 器 采用 
串 行进 位 方式 还 是 并 行进 位 方式 实现 属于 微 体 系 结构 。 相 同 的 ISA 可 能 具有 不 同 的 微 体 
系 结构 ,例如 ,对 于 Intel x86 这 种 ISA, 很 多 处 理 器 的 组 织 方式 不 同 , 即 具有 不 同 的 微 架构 ， 
但 因为 它们 具有 相同 的 ISA, 因 此 ,一 种 处 理 器 运行 的 程序 ,在 另 一 种 处 理 器 上 也 能 运行 。 

微 体 系 结构 最 终 是 由 逻辑 电路 (logic circuit) 实 现 的 ,当然 , 微 架 构 中 的 一 个 功能 部 件 可 
以 用 不 同 的 逻辑 来 实现 ,用 不 同 的 逻辑 实现 方式 得 到 的 性 能 和 成 本 有 差异 。 

最 后 ,每 个 基本 的 逻辑 电路 都 是 按照 特定 的 器 件 技术 (device technology) 实 现 的 , 例 
如 ,CMOS 电路 中 使 用 的 器 件 和 NMOS 电路 中 使 用 的 器 件 不 同 。 


1.3.2 计算 机 系统 的 不 同 用 户 


按照 在 计算 机 上 完成 任务 的 不 同 ,可 以 把 使 用 计算 机 的 用 户 分 成 以 下 4 类 : 最 终 用 户 、 
系统 管理 员 、 应 用 程序 员 和 系统 程序 员 。 

1. 最 终 用 户 

使 用 应 用 程序 完成 特定 任务 的 计算 机 用 户 称 为 最 终 用 户 (end user)。 早 期 的 计算 机 非 
常 昂贵 ,只 能 由 少数 专业 人 员 使 用 。 随 着 20 世纪 80 年 代 初 个 人 计算 机 的 迅速 普及 以 及 
20 世纪 90 年 代 初 多 媒体 计算 机 的 广泛 应 用 ,特别 是 互联 网 技术 的 发 展 ,计算 机 已 经 成 为 人 
们 日 常生 活 中 的 重要 工具 。 人 们 利用 计算 机 播放 电影 , 玩 游戏 ,炒股 票 ,发 邮件 , 查 信息 , 聊 
天 打 电 话 等 ,计算 机 的 应 用 无 处 不 在 。 因 而 ,许多 普通 人 都 成 为 计算 机 的 最 终 用 户 。 计 算 机 
最 终 用 户 使 用 键盘 和 鼠标 等 外 设 与 计算 机 交互 ,通过 操作 系统 提供 的 用 户 界面 启动 执行 应 
用 程序 或 系统 命令 ,从 而 完成 用 户 任务 。 因 此 ,最 终 用 户 能 够 感知 到 的 只 是 系统 提供 的 简单 
人 机 交互 界面 和 安装 在 计算 机 中 的 相关 应 用 程序 。 


计算 机 系统 榜 达 


2. 系统 管理 员 

系统 管理 员 (system administrator) 是 指 利用 操作 系统 等 软件 提供 的 功能 对 系统 进行 配 
置 ,管理 和 维护 ,以 建立 高 效 合 理 的 系统 环境 供 计 算 机 用 户 使 用 的 操作 人 员 。 其 职责 主要 包 
括 : 安装 、 配 置 和 维护 系统 的 硬件 和 软件 ,建立 和 管理 用 户 账户 ,升级 软件 ,备份 和 恢复 业务 
系统 和 数据 等 。 相 对 于 普通 的 计算 机 最 终 用 户 ,系统 管理 员 作为 管理 和 维护 计算 机 系统 的 
专业 人 员 ,应 该 非常 熟悉 操作 系统 提供 的 有 关系 统 配 置 和 管理 方面 的 功能 ,很 多 普通 用 户 解 
决 不 了 的 问题 ,系统 管理 员 必 须 能 够 解决 。 因 此 ,系统 管理 员 能 感知 到 的 是 系统 中 部 分 硬件 
层面 、 系 统管 理 层面 以 及 相关 的 实用 程序 和 人 机 交互 界面 。 

3. 应 用 程序 员 

应 用 程序 员 (application programmer) 是 指使 用 高 级 编程 语言 编制 应 用 软件 的 程序 员 。 
应 用 程序 员 大 多 使 用 高 级 程序 设计 语言 编写 程序 。 所 谓 高 级 程序 设计 语言 (high level 
programming language) 是 指 面向 算法 设计 的 较 接近 于 日 常 所 用 的 英语 书面 语言 的 程序 设 
计 语 言 ,例如 BASIC、C/C++ .FORTRAN Java 等 。 

应 用 程序 员 所 看 到 的 计算 机 系统 除了 计算 机 硬件 ,操作 系统 提供 的 应 用 编程 接口 
(APD 、 人 机 交互 界面 和 实用 程序 外 ,还 包括 相应 的 程序 语言 处 理 系统 。 在 语言 处 理 系 统 
中 ,除了 翻译 程序 外 ,通常 还 包括 编辑 程序 .链接 程序 以 及 将 这 些 程序 和 工具 集成 在 一 起 所 
构成 的 集成 开发 环境 (Integrated Development Environment,IDE) 等 。 此 外 ,语言 处 理 系统 
中 还 包括 可 供应 用 程序 调用 的 各 类 函数 库 。 

4. 系统 程序 员 

系统 程序 员 (system programmer) 指 设计 和 开发 系统 软件 的 程序 员 。 系 统 程序 员 开 发 
操作 系统 .编译 器 和 实用 程序 等 系统 软件 时 ,需要 熟悉 计算 机 底层 的 相关 硬件 和 系统 结构 ， 
甚至 可 能 需要 直接 与 计算 机 硬件 和 指令 系统 打交道 。 比 如 ,直接 对 各 种 控制 寄存 器 .用 户 可 
见 寄存 器 、I/O 控制 器 等 硬件 进行 控制 和 编程 。 因 此 ,系统 程序 员 必 须 熟 悉 指令 系统 、 机 器 
结构 和 相关 的 机 器 功能 特性 ,有 时 还 要 直接 用 汇编 语言 等 低级 语言 编写 程序 代码 。 

很 多 情况 下 ,同一 个 人 可 能 既是 最 终 用 户 , 又 是 系统 管理 员 , 同 时 还 是 应 用 程序 员 或 系 
统 程序 员 。 例 如 ,对 于 一 个 计算 机 专业 的 学 生来 说 ,有 时 需要 使 用 计算 机 玩 游戏 或 网 购物 
品 ,此 时 为 最 终 用 户 的 角色 ;有 时 需要 整理 计算 机 磁盘 中 的 碎片 .升级 系统 或 备份 数据 ,此 时 
是 系统 管理 员 的 角色 ;有 时 需要 完成 老师 布置 的 一 个 应 用 程序 的 开发 ,此 时 是 应 用 程序 员 的 
角色 ;有 时 可 能 还 需要 完成 老师 布置 的 操作 系统 或 编译 程序 等 软件 的 开发 ,此 时 是 系统 程序 
员 的 角色 。 

一 个 计算 机 系统 可 以 认为 是 由 各 种 硬件 和 各 类 软件 采用 层次 化 方式 构建 的 分 层 系 统 ， 
不 同 计算 机 用 户 工作 所 在 的 系统 结构 层 如 图 1. 8 所 示 。 

从 图 1.8 中 可 看 出 ,ISA 处 于 硬件 和 软件 的 交界 面 上 ,硬件 所 有 的 功能 都 由 ISA 集中 
体现 ,软件 通过 ISA 在 计算 机 上 执行 。 所 以 ,ISA 是 整个 计算 机 系统 中 的 核心 部 分 。 

ISA 层 下 面 是 硬件 部 分 ,上 面 是 软件 部 分 。 硬 件 部 分 包括 CPU、 主 存 和 输入 输出 等 主 
要 功能 部 件 ,这 些 功 能 部 件 通 过 数字 逻辑 电路 设计 实现 。 软 件 部 分 包括 低层 的 系统 软件 和 
高 层 的 应 用 软件 ,汇编 程序 编译 程序 和 操作 系统 等 这 些 系统 软件 直接 在 I SA 上 实现 ,系统 
程序 员 所 看 到 的 机 器 的 属性 是 属于 ISA 层面 的 内 容 , 所 看 到 的 机 器 是 配置 了 指令 系统 的 机 
器 , 称 为 机 器 语言 机 器 ,工作 在 该 层次 的 程序 员 称 为 机 器 语言 程序 员 ; 系 统管 理 员工 作 在 操 
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图 1.8 计算 机 系统 的 层次 化 结构 


作 系 统 层 ,所 看 到 的 是 配置 了 操作 系统 的 虚拟 机 器 , 称 为 操作 系统 虚拟 机 ;汇编 语言 程序 员 
工作 在 提供 汇编 程序 的 虚拟 机 器 级 ,所 看 到 的 机 器 称 为 汇编 语言 虚拟 机 ;应 用 程序 员 大 多 工 
作 在 提供 编译 器 或 解释 器 等 翻译 程序 的 语言 处 理 系统 层 , 因 此 ,应 用 程序 员 大 多 用 高 级 语言 
编写 程序 ,因而 也 称 为 高 级 语言 程序 员 , 所 看 到 虚拟 机 器 称 为 高 级 语言 虚拟 机 ;最 终 用 户 则 
工作 在 最 上 面 的 应 用 程序 层 。 

在 计算 机 技术 中 ,一 个 存在 的 事物 或 概念 从 某 个 角度 看 似乎 不 存在 , 即 , 对 实际 存在 的 
事务 或 概念 感觉 不 到 , 则 称 为 透明 。 通 常 ,在 一 个 计算 机 系统 中 ,系统 程序 员 所 看 到 的 底层 
机 器 级 的 概念 性 结构 和 功能 特性 对 高 级 语言 程序 员 ( 通 常 就 是 应 用 程序 员 ) 来 说 是 透明 的 ， 
即 看 不 见 或 感觉 不 到 。 因 为 对 应 用 程序 员 来 说 ,他 们 直接 用 高 级 语言 编程 ,不 需要 了 解 有 关 
汇编 语言 的 编程 问题 ,也 不 用 了 解 机 器 语言 中 规定 的 指令 格式 . 寻 址 方式 .数据 类 型 和 格式 
等 指令 系统 方面 的 问题 。 


1.4 程序 开发 与 执行 过 程 


程序 的 开发 和 执行 涉及 计算 机 系统 的 各 个 不 同 层 面 , 因 而 计算 机 系统 层次 结构 的 思想 
体现 在 程序 开发 和 执行 过 程 的 各 个 环节 中 。 下 面 以 简单 的 hello 程序 为 例 ,简要 介绍 程序 
的 开发 与 执行 过 程 ,以 便 加 深 对 计算 机 系统 层次 结构 概念 的 认识 。 

因为 编写 程序 并 让 其 在 计算 机 上 执行 是 为 了 解决 最 终 用 户 的 应 用 问题 ,因而 ,程序 有 时 
被 称 为 用 户 程序 (user program) 或 应 用 程序 (application program)。 


1.4.1 从 源 程序 到 可 执行 程序 
以 下 是 hello.c 的 C 语 言 源 程序 代码 : 


1#include <stdio.h> 

之 

3 int main() 

a 

5 printf ("hello, world\n"); 
61} 


为 了 让 计算 机 能 执行 上 述 应 用 程序 ,应 用 程序 员 应 按照 以 下 步骤 进行 处 理 。 





计算 机 系统 碾 述 


(1) 通过 程序 编辑 软件 得 到 hello. c 文件 。hello. c 在 计算 机 中 以 ASCII 字符 方式 存 
放 , 如 图 1.9 所 示 , 图 中 给 出 了 每 个 字符 对 应 的 ASCII 码 的 十 进 制 值 , 例 如 ,第 一 个 字 节 的 
值 是 35 ,代表 字符 '#' ;第 二 个 字 节 的 值 是 105 ,代表 字符 ,最 后 一 个 字 节 的 值 为 125, 代表 
字符 )' 。 通 常 把 用 ASCII 码 字 符 或 汉字 字符 表示 的 文件 称 为 文本 文件 (text file) , 源 程 序 
文件 都 是 文本 文件 ,是 可 显示 和 可 读 的 。 








# i n qc 1 u d e <sp> < s tt d i 6 

35 105 110 99 108 117 100 101 32 60 115 116 100 105 111 46 
h > \n \n i n t <sp> m a i n ( Ni 
104 62 10 10 105 110 116 32 109 97 105 110 40 41 10 123 
\n <sp> <sp> <sp> <sp> Pp r i n t 和 e 1 
10 32 32 32 32 112 114 105 110 116 102 40 34 104 101 108 
1 0 ，<Sp> W 0 r 1 d \ mn | \n } 
108 111 44 32 119 111 114 108 100 92 110 34 41 59 10 125 








图 1.9 hello.c 源 程序 文件 的 表示 


(2) 将 hello.c 进行 预 处 理 、 编 译 、 汇 编 和 链接 ,最 终生 成 可 执行 目标 文件 。 例 如 ,在 
UNIX 系统 中 ,可 用 GCC 编译 驱动 程序 进行 处 理 , 命 令 如 下 : 

unix>gcc -o hello hello.c 

上 述 命令 中 ,最 前 面 的 unix 二 为 shell 命令 行 解释 器 的 命令 行 提示 符 ,gcc 为 GCC 编译 
驱动 程序 名 ,-o 表示 后 面 为 输出 文件 名 ,hello. e 为 要 处 理 的 源 程序 。 从 hello. c 到 可 执行 目 
标 文件 hello 的 转换 过 程 如 图 1. 10 所 示 。 
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1. 10 hello. e 源 程序 文件 到 可 执行 目标 文件 的 转换 过 程 


(1) 预 处 理 阶段 : 预 处 理 程序 (cpp) 对 源 程序 中 以 字符 # 开 头 的 命令 进行 处 理 , 例 如 ， 
将 #include 命令 后 面 的 .h 文 件 内 容 柑 入 到 源 程序 文件 中 。 预 处 理 程序 的 输出 结果 还 是 一 
个 源 程序 文件 ,以 i 为 扩展 名 。 

(2) 编译 阶段 : 编译 程序 (ccl) 对 预 处 理 后 的 源 程 序 进 行 编译 ,生成 一 个 汇编 语言 源 程 
序 文件 ,以 s 为 扩展 名 ,例如 ,hello. s 是 一 个 汇编 语言 程序 文件 。 

(3) 汇编 阶段 : 汇编 程序 (as) 对 汇编 语言 源 程序 进行 汇编 ,生成 一 个 可 重 定位 目标 文件 
(relocatable object file) ,以 o 为 扩展 名 ,例如 ,hello. o 是 一 个 可 重 定位 目标 文件 。 它 是 一 种 
二 进 制 文件 (binary file) ,因为 其 中 的 代码 已 经 是 机 器 指令 ,数据 以 及 其 他 信息 也 都 是 用 二 
进 制 表示 的 ,所 以 它 是 不 可 读 的 , 即 打 开 显 示 出 来 的 是 乱码 。 

(4) 链接 阶段 : 链接 程序 (1d) 将 多 个 可 重 定位 目标 文件 和 标准 库 函 数 合 并 成 为 一 个 可 
执行 目标 文件 (executable object file) ,可 执行 目标 文件 简称 为 可 执行 文件 。 本 例 中 ,链接 器 
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将 hello.o 和 标准 库 函 数 printf 所 在 的 可 重 定位 目标 模块 printf. o 进行 合并 ,生成 可 执行 文 
件 hello。 

最 终生 成 的 可 执行 文件 被 保存 在 磁盘 上 ,可 以 通过 某 种 方式 启动 一 个 磁盘 上 的 可 执行 
文件 运行 。 


1.4.2 可 执行 文件 的 启动 和 执行 


对 于 一 个 存放 在 磁盘 上 的 可 执行 文件 ,可 以 在 操作 系统 提供 的 用 户 操作 环境 中 ,采用 双 
击 对 应 图 标 或 在 命令 行 中 输入 可 执行 文件 名 等 多 种 方式 来 启动 执行 。 在 UNIX 系统 中 ,可 
以 通过 shell 命令 行 解释 器 来 执行 一 个 可 执行 文件 。 例 如 ,对 于 上 述 可 执行 文件 hello, 通 过 
shell 命令 行 解释 器 启动 执行 的 结果 如 下 : 

unix>./hello 


hello, world 


unix> 

shell 命令 行 解释 器 会 显示 提示 符 unix> ,告知 用 户 它 准 备 接收 用 户 的 输入 ,此 时 ,用 户 
可 以 在 提示 符 后 面 输 入 需要 执行 的 命令 名 , 它 可 以 是 一 个 可 执行 文件 在 磁盘 上 的 路 径 名 , 例 
如 ,上 述 “. /hello” 就 是 可 执行 文件 hello 的 路 径 名 ,其 中 “. /” 表 示 当 前 目录 。 在 命令 后 用 户 
需 按 下 Enter 键 表示 结束 。 图 1. 11 显示 了 在 计算 机 中 执行 hello 的 整个 过 程 。 
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图 1.11 启动 和 执行 hello 程序 的 整个 过 程 














如 图 1. 11 所 示 ,shell 程序 会 将 用 户 从 键盘 输入 的 每 个 字符 逐一 读 和 人 CPU 寄存 器 中 
(对 应 线 @) ,然后 再 保存 到 主 存储 器 中 ,在 主 存 的 缓冲 区 形成 字符 串 ". /hello" (对 应 线 @)。 
等 到 接收 到 Enter 键 时 ,shell 将 调 出 操作 系统 内 核 中 相应 的 服务 例 程 ,由 内 核 来 加 载 磁盘 
上 的 可 执行 文件 hello 到 存储 器 (对 应 线 回 ) 。 内 核 加 载 完 可 执行 文件 中 的 代码 及 其 所 要 处 
理 的 数据 (这 里 是 字符 串 "hello,， world\n") 后 ,将 hello 第 一 条 指令 的 地 址 送 到 程序 计数 器 
(Program Counter,PC) 中 ,CPU 永远 将 PC 的 内 容 作为 将 要 执行 的 指令 的 地 址 ,因此 ,处 理 
器 随后 开始 执行 hello 程序 , 它 将 加 载 到 主 存 的 字符 串 "hello,， world\n" 中 的 每 一 个 字符 从 
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主 存 取 到 CPU 的 寄存 器 中 (对 应 线 @) ,然后 将 CPU 寄存 器 中 的 字符 送 到 显示 器 上 显示 出 
来 (对 应 线 @)。 

从 上 述 过 程 可 以 看 出 ,一 个 用 户 程 序 被 启动 执行 ,必须 依靠 操作 系统 的 支持 ,包括 外 过 
程序 和 内 核 服务 例 程 。 例 如 ,shell 命令 行 解释 器 是 操作 系统 外 过 程序 , 它 为 用 户 提供 了 一 
个 启动 程序 执行 的 环境 ,用 来 对 用 户 从 键盘 输入 的 命令 进行 解释 ,并 调 出 操作 系统 内 核 来 加 
载 用 户 程序 (用 户 输入 命令 对 应 的 程序 )。 显 然 , 用 来 加 载 用 户 程序 并 使 其 从 第 一 条 指令 开 
始 执 行 的 操作 系统 内 核 服 务 例 程 也 是 必 不 可 少 的 。 此 外 ,在 上 述 过 程 中 涉及 键盘 \ 磁 盘 和 显 
示 咒 等 外 部 设备 的 操作 ,这 些 底层 硬件 是 不 能 由 用 户 程 序 直接 访问 的 ,此 时 ,也 需要 依靠 操 
作 系 统 内 核 服务 例 程 的 支持 ,例如 ,用 户 程 序 需要 调用 内 核 的 read 系统 调用 服务 例 程 读 取 
磁盘 文件 ,或 调用 内 核 的 write 系统 调用 服务 例 程 把 字符 串 写 到 显示 器 中 等 。 

从 图 1. 11 可 以 看 出 ,程序 的 执行 过 程 就 是 数据 在 CPU 、 主 存储 器 和 IO 模块 之 间 流 动 
的 过 程 ,所 有 数据 的 流动 都 是 通过 总 线 、1/O 桥接 器 等 进行 的 。 数 据 在 总 线 上 传输 之 前 , 需 
要 先 缓存 在 存储 部 件 中 ,因此 ,除了 主 存储 器 本 身 是 存储 部 件 以 外 ,在 CPU LI/O 桥接 器 、 设 
备 控制 器 中 也 有 存放 数据 的 缓冲 存储 部 件 ,例如 CPU 中 的 寄存 器 堆 、 设 备 控制 器 中 的 数据 
缓冲 寄存 器 等 。 


1.4.3 程序 与 指令 的 关系 


可 执行 目标 文件 中 包含 机 器 代码 段 ,可 执行 文件 的 执行 实际 上 是 所 包含 的 机 器 代码 段 
执行 的 过 程 。 机 器 代码 段 由 一 条 一 条 机 器 指令 (通常 简称 为 指令 ) 构 成 。 指 令 (instruction) 
就 是 用 0 和 1 表示 的 一 串 0/1 序列 ,用 来 指示 CPU 完成 一 个 特定 的 原子 操作 ,例如 , 取 数 指 
令 (load instruction) 从 存储 单元 中 取出 一 个 数据 存放 到 CPU 的 寄存 器 中 , 存 数 指令 (store 
instruction) 将 CPU 寄存 器 的 内 容 写 入 一 个 存储 单元 ,ALU 指令 (ALU instruction) 将 两 个 
寄存 器 的 内 容 进行 某 种 算术 或 逻辑 运算 后 再 送 入 一 个 CPU 寄存 器 中 ,输出 指令 (output 
instruction) 将 一 个 CPU 寄存 器 的 内 容 送 到 1/O 模块 的 某 个 寄存 器 中 ,如 此 等 等 。 

可 以 看 出 ,上 述 hello 程序 的 执行 过 程 中 ,字符 串 "hello，world\n" 中 的 每 个 字符 都 要 通 
过 取 数 指令 从 存储 器 送 到 CPU 寄存 器 中 ,然后 ,再 通过 输出 指令 从 CPU 寄存 器 送 到 显示 
适配器 (也 称 显示 控制 器 或 显卡 ) 中 。 

指令 通常 被 划分 为 若干 个 字段 ,有 操作 码 字段 .地 址 码 字 段 和 立即 数字 段 等 。 操 作 码 字 
段 指 出 指令 的 操作 类 型 ,如 加 ` 减 ,传送 、 跳 转 等 ;地 址 码 字 段 指出 指令 所 处 理 的 操作 数 的 地 
址 ,如 寄存 器 编号 .内 存单 元 地 址 等 ;立即 数字 段 指出 具体 的 一 个 操作 数 或 偏 移 地 址 等 。 

图 1.12 给 出 了 实现 两 个 相 邻 数组 元 素 交 换 功 能 的 不 同 层次 语言 的 描述 。 

在 高 级 语言 源 程序 中 ,可 直观 地 用 3 个 赋值 语句 实现 ;在 经 编译 后 生成 的 汇编 语言 源 程 
序 中 ,可 用 4 个 汇编 指令 表示 ,其 中 ,两 条 是 取 数 指令 lw(load word), 另 两 条 是 存 数 指令 
sw(store word) ;在 经 汇编 后 生成 的 机 器 语言 程序 中 ,对 应 的 机 器 指令 是 特定 格式 的 二 进 制 
代码 ,例如 ,第 一 条 lw 指令 对 应 的 机 器 代码 为 1000 1100 0100 1111 0000 0000 0000 0000， 
这 是 一 条 MIPS 体系 结构 中 的 指令 ,其 中 ,高 6 位 100011 为 操作 码 , 随 后 5 位 00010 为 寄存 
器 编号 2 ,再 后 面 5 位 01111 为 另 一 个 寄存 器 编号 ,最 后 16 位 为 立即 数 0。CPU 能 够 通过 
逻辑 电路 直接 执行 这 种 二 进 制 表示 的 机 器 指令 。 指 令 执行 时 通过 控制 器 将 指令 操作 码 进行 
译 码 ,以 解释 成 控制 信号 (control signal) 来 控制 数据 通路 执行 。 例 如 ,控制 信号 ALUop 一 
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temp = v[k]; 
高 级 语言 源 程序 v[ 一 v[er1]; 
v[k+1] = temp; 
ss lw $15, 0(82) 
得 lw $16, 4($2) 
汇编 语言 源 程序 sw $16, 0($2) 





sw $15, 4($2) 
汇编 程序 
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1 1000 1100 0100 1111 0000 0000 0000 0000 
瑟 兰 日 标 程 谨 1000 1100 0101 0000 0000 0000 0000 0100 
本 由 1010 1100 0101 0000 0000 0000 0000 0000 
1010 1100 0100 1111 0000 0000 0000 0100 

| 指令 译 由 器 


控制 信号 











*…, EXTop=1,ALUSelA=1,ALUSelB=11,ALUop=add, 
IorD=1,Read,MemtoReg=1,RegWIr=1,.… 














江 凌 讲堂 粮 半 上: 


图 1.12 不 同 层次 语言 之 间 的 等 价 转换 
add 可 以 控制 ALU 进行 加 法 操作 ,Reg Wr 一 1 可 以 控制 将 结果 写 人 寄存 器 。 
1.4.4 指令 的 执行 过 程 


图 1.13 给 出 了 汉 “' 诺 依 曼 结构 的 简单 模型 机 ,通过 描述 该 模型 机 的 工作 原理 ,以 期 说 
明 指 令 的 含义 和 指令 的 执行 过 程 。 
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图 1.13 汉 “' 诺 依 曼 结构 模型 机 


在 该 模型 机 中 ,CPU 包含 ALU .通用 寄存 器 组 (GPRs) 标志 寄存 器 、 控 制 器 、 指 令 寄存 
器 (Instruction Register,IR) ,程序 计数 器 存储 器 地 址 寄存 器 (Memory Address Register， 
MAR) 和 存储 器 数据 寄存 器 (Memory Data Register, MDR)。 其 中 , ALU 用 于 进行 算术 运 
算 和 逻辑 运算 ;通用 寄存 器 组 由 若干 个 通用 寄存 器 组 成 ,每 个 通用 寄存 器 有 一 个 编号 ;通过 
指令 可 以 指定 哪个 编号 的 寄存 器 中 的 数据 作为 ALU 运算 的 操作 数 ; 标 志 寄 存 器 用 来 存放 
ALU 运算 得 到 的 一 些 标志 信息 ,如 结果 是 否 为 0 有 无 产生 进位 或 借 位 、 结 果 是 否 为 负数 
等 ;IR 用 于 存放 从 主 存 读 出 的 指令 ;指令 中 的 操作 码 被 送 到 控制 器 进行 译 码 ,以 生成 控制 信 
号 ,图 中 从 控制 器 送出 的 虚线 就 是 控制 信号 ,可 以 控制 如 何 修改 PC 以 得 到 下 一 条 指令 的 地 
址 ,可 以 控制 ALU 执行 什么 运算 ,可 以 控制 主 存 进行 读 操 作 还 是 写 操作 ( 读 / 写 控制 信号 ) 。 
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CPU 和 主 存 之 间 通 过 一 组 总 线 相连 ,总 线 中 有 地 址 、 控 制 和 数据 3 组 信号 线 。MAR 中 
的 地 址 信息 将 会 直接 送 到 地 址 线 上 ;控制 线 中 有 读 / 写 信号 线 ,指出 数据 是 从 CPU 写 入 主 
存储 器 还 是 从 主 存储 器 读 出 到 CPU ,根据 是 读 操 作 还 是 写 操作 来 控制 将 MDR 中 的 数据 直 
接送 到 数据 线 上 还 是 将 数据 线 上 的 数据 接收 到 MDR 中 。 

主 存储 器 用 来 存储 指令 和 操作 数 。 每 个 存储 单元 有 一 个 编号 , 称 为 地 址 ,通常 一 个 存储 单 
元 存放 一 个 字 节 (8 位 ) ,因此 ,每 条 指令 可 能 占用 多 个 存储 单元 ,一 个 操作 数 也 会 占用 多 个 存 
储 单元 ,指令 的 地 址 和 操作 数 的 地 址 都 是 指 一 组 连续 存储 单元 中 最 小 的 地 址 。CPU 可 以 读 取 
主 存 中 的 指令 和 操作 数 , 也 可 以 将 运算 结果 写 人 主 存 。 当 CPU 需要 读 / 写 主 存 时 ,CPU 将 所 
访问 的 指令 或 操作 数 的 地 址 送 到 地 址 线 上 ,并 将 读 / 写 控制 信号 送 到 读 / 写 信 号 线 上 。 

CPU 和 主 存 构成 主机 ,主机 外 部 的 输入 设备 和 输出 设备 通过 相应 的 方式 与 主机 相连 。 

冯 。 诺 依 曼 结构 采用 “存储 程序 ”的 工作 方式 ,因此 ,组 成 一 个 程序 的 指令 序列 以 及 程序 
所 处 理 的 操作 数 都 被 事先 存放 在 主 存储 嚣 中。 程序 中 第 一 条 指令 的 地 址 置 于 PC 中 ,因此 ， 
一 旦 启动 程序 执行 ,CPU 就 按照 以 下 步骤 自动 取出 程序 中 的 一 条 一 条 指令 执行 。 

第 一 步 : 根据 PC 取 指 令 到 IR。 将 PC 的 内 容 送 MAR,MAR 中 的 内 容 直 接送 地 址 线 ， 
同时 ,控制 器 将 读 信号 送 读 / 写 信号 线 , 主 存根 据 地 址 线 上 的 地 址 和 读 信号 ,从 指定 存储 单元 
开始 读 出 指令 ,并 送 到 数据 线 上 ,MDR 从 数据 线 接受 指令 信息 ,并 传送 到 IR 中 。 

第 二 步 : 指令 译 码 并 送出 控制 信号 。 控 制 器 根据 IR 中 指令 的 操作 码 , 生 成 相应 的 控制 
信号 , 送 到 不 同 的 执行 部 件 。 例 如 , 若 IR 中 的 指令 是 ALU 运算 指令 , 则 控制 信号 被 送 到 
ALU 的 操作 控制 端 , 以 控制 ALU 将 要 进行 什么 运算 ;车 IR 中 的 指令 是 取 数 或 存 数 指令 
(lw 或 sw) , 则 读 / 写 控制 信号 被 送 到 总 线 的 控制 线 上 。 

第 三 步 : 取 操 作 数 。 如 果 是 ALU 运算 类 指令 , 则 根据 IR 中 指令 指定 的 寄存 器 编号 选 
择 两 个 或 一 个 寄存 器 中 的 内 容 作 为 操作 数 , 送 到 ALU 的 输入 端 。 

第 四 步 : 指令 执行 。 若 是 ALU 运算 类 指令 , 则 ALU 在 控制 信号 的 控制 下 ,进行 相应 
的 运算 ,并 生成 运算 结果 和 相应 的 标志 信息 ;若是 取 数 / 存 数 指令 , 则 主 存在 读 / 写 控制 信号 
的 控制 下 ,对 地 址 线 指定 的 存储 单元 进行 读 / 写 。 

第 五 步 : 回 写 结果 。 将 ALU 运算 的 结果 写 人 指定 编号 的 寄存 器 或 指定 的 主 存单 元 中 。 

为 了 能 自动 执行 程序 中 的 一 条 一 条 指令 ,CPU 必须 能 够 自动 得 到 下 一 条 指令 的 地 址 并 
送 PC。 对 于 每 条 指令 的 长 度 都 一 样 的 指令 系统 ( 定 长 指令 字 系 统 ) ,只 要 每 次 都 将 PC 自动 
加 上 指令 长 度 即 可 ,通常 在 主 存 取 指令 时 修改 PC; 对 于 变 长 指令 字 系 统 , 则 需要 对 指令 进行 
译 码 ,根据 不 同 的 情况 来 使 PC 加 上 不 同 的 值 。 不 管 是 定 长 指令 字 系 统 还 是 变 长 指令 字 系 
统 , 当 一 条 指令 执行 结束 时 ,PC 中 一 定 是 下 一 条 指令 的 地 址 ,因而 ,继续 按照 上 述 5 个 步骤 ， 
CPU 就 可 以 按照 程序 规定 的 顺序 自动 地 执行 程序 中 的 所 有 指令 。 

指令 的 执行 由 时 钟 信号 (clock signal) 进 行 定时 ,一 条 指令 的 执行 可 能 需要 一 个 或 多 个 
时 钟 周期 。 


1.5 计算 机 系统 性 能 评价 


一 个 完整 的 计算 机 系统 由 硬件 和 软件 构成 ,硬件 性 能 的 好 坏 对 整个 计算 机 系统 的 性 
能 起 着 至 关 重 要 的 作用 。 硬件 的 性 能 检测 和 评价 比较 困难 ,因为 硬件 的 性 能 只 能 通过 运 
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行 软件 才能 反映 出 来 ,而 在 相同 硬件 上 运行 不 同类 型 的 软件 ,或 者 同样 的 软件 用 不 同 的 
数据 集 进行 测试 ,所 测 到 的 性 能 都 可 能 不 同 。 因 此 ,必须 有 一 套 综合 的 测试 和 评价 硬件 
性 能 的 方法 。 


1.5.1 计算 机 性 能 的 定义 


吞吐 率 (throughput) 和 响应 时 间 (response time) 是 考量 一 个 计算 机 系统 性 能 的 两 个 基 
本 指标 。 吞吐 率 表示 在 单位 时 间 内 所 完成 的 工作 量 。 在 有 些 场合 下 ,吞吐 率 也 被 称 为 带宽 
(bandwidth) ;响应 时 间 也 称 为 执行 时 间 (execution time) 或 等 待 时 间 (latency) ,是 指 从 作业 
提交 开始 到 作业 完成 所 用 的 时 间 。 通 常情 况 下 ,一 个 程序 的 响应 时 间 除 了 程序 包含 的 指令 
在 CPU 上 执行 所 用 的 时 间 外 ,还 包括 磁盘 访问 时 间 、 存 储 器 访问 时 间 、 输 入 输出 操作 所 需 
时 间 以 及 操作 系统 运行 这 个 程序 所 用 的 额外 开销 等 。 
不 同 应 用 场合 下 计算 机 用 户 所 关心 的 性 能 是 不 同 的 。 例 如 ,在 多 媒体 应 用 场合 ,用 户 希 
音 /视频 的 播放 要 流畅 , 即 单位 时 间 内 传输 的 数据 量 要 大 ,因而 关心 的 是 系统 吞吐 率 是 否 
高 ;而 在 银行 ,证券 等 事务 处 理应 用 场合 ,用 户 希 望 业 务 处 理 速度 快 ,不 需 长 时 间 等 待 ,因而 
更 关心 响应 时 间 是 否 短 ;还 有 些 应 用 场合 (如 ATM ,文件 服务 、Web 服务 等 ) ,用户 则 同时 关 
心 香 吐 率 和 响应 时 间 。 


1.5.2 计算 机 性 能 的 测试 


如 果 不 考虑 应 用 背景 而 直接 比较 计算 机 性 能 , 则 大 都 用 执行 时 间 来 衡量 。 因 此 ,从 执行 
时 间 来 考虑 ,完成 同样 工作 量 所 需 时 间 最 短 的 那 台 计算 机 性 能 是 最 好 的 。 

操作 系统 在 对 处 理 器 进行 调度 时 ,一 段 时 间 内 往往 会 让 多 个 程序 (更 准确 地 说 是 进程 ) 
轮流 使 用 处 理 器 ,因此 在 某 个 用 户 程序 执行 过 程 中 ,可 能 同时 还 会 有 其 他 用 户 程序 和 操作 系 
统 程序 在 执行 ,所 以 ,用 户 感觉 到 的 某 个 程序 的 执行 时 间 并 不 是 其 真正 的 执行 时 间 。 通 常 把 
用 户 感觉 到 的 执行 时 间 分 成 以 下 两 部 分 : CPU 时 间 和 其 他 时 间 。CPU 时 间 指 CPU 用 于 程 
序 执行 的 时 间 , 它 又 包括 以 下 两 部 分 : 

(1) 用 户 CPU 时 间 , 指 真正 用 于 运行 用 户 程 序 代码 的 时 间 ; 

(2) 系统 CPU 时 间 , 指 为 了 执行 用 户 程 序 而 需要 CPU 运行 操作 系统 程序 的 时 间 。 

其 他 时 间 指 等 待 IO 操作 完成 的 时 间或 CPU 用 于 执行 其 他 用 户 程序 的 时 间 。 

计算 机 系统 的 性 能 评价 主要 考虑 的 是 CPU 性 能 。 系 统 性 能 和 CPU 性 能 不 等 价 ,两 者 
有 一 些 区 别 。 系 统 性 能 是 指 系统 的 响应 时 间 , 它 与 CPU 外 的 其 他 部 分 也 有 关系 ;而 CPU 
性 能 是 指 用 户 CPU 时 间 , 它 只 包含 CPU 运行 用 户 程 序 代码 的 时 间 。 

在 对 CPU 时 间 进 行 计算 时 需要 用 到 以 下 几 个 重要 的 概念 和 指标 。 

(1) 时 钟 周 期 (clock cycle,tick ,clock tick ,clock) 。 

计算 机 执行 一 条 指令 的 过 程 被 分 成 若干 步骤 和 相应 的 动作 来 完成 ,每 一 步 动作 都 要 由 
相应 的 控制 信号 进行 控制 ,这 些 控制 信号 何 时 发 出 、 作 用 时 间 多 长 ,都 要 由 相应 的 定时 信号 
进行 同步 。 因 此 ,CPU 必须 能 够 产生 同步 的 时 钟 定 时 信号 ,也 就 是 CPU 的 主 脉 冲 信 号 ,其 
宽度 称 为 时 钟 周期 。 

(2) 时 钟 频率 (clock rate, 主 频 ) 。 

CPU 的 主 频 就 是 CPU 中 的 主 脉冲 信号 的 时 钟 频率 ,是 CPU 时 钟 周期 的 倒数 。 
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(3) CPICcycles per instruction) 。 
CPI 表示 执行 一 条 指令 所 需 的 时 钟 周期 数 。 由 于 不 同 指令 的 功能 不 同 ,所 需 的 时 钟 周 
期 数 也 不 同 ,因此 ,对 于 一 条 特定 指令 而 言 ,其 CPI 指 执行 该 条 指令 所 需 的 时 钟 周期 数 ,此 
时 CPI 是 一 个 确定 的 值 ;对 于 一 个 程序 或 一 台 机 器 来 说 ,其 CPI 指 该 程序 或 该 机 器 指令 集 
中 的 所 有 指令 执行 所 需 的 平均 时 钟 周期 数 ,此 时 ,CPI 是 一 个 平均 值 。 
已 知 上 述 参 数 或 指标 ,可 以 通过 以 下 公式 来 计算 用 户 程 序 的 CPU 时 间 : 
CPU 执行 时 间 二 程序 所 含 时 钟 周期 数 坟 时 钟 频率 
三 程序 所 含 时 钟 周期 数 X 时 钟 周期 
上 述 公 式 中 ,程序 所 含 时 钟 周期 数 可 由 程序 所 含 指令 条 数 和 相应 的 CPI 求 得 。 
如 果 已 知 程序 总 的 指令 条 数 和 综合 CPI, 则 可 用 如 下 公式 计算 程序 的 总 时 钟 周期 数 。 
程序 总 时 钟 周期 数 二 程序 所 含 指令 条 数 X CPI 
如 果 已 知 程序 中 共有 n 种 不 同类 型 的 指令 ,第 i 种 指令 的 条 数 和 CPI 分 别 为 C; 和 
CPL, 则 


程序 总 时 钟 周期 数 = > CCPL X CI) 
程序 的 综合 CPI 也 可 由 以 下 公式 求 得 ,其 中 ,E, 表示 第 ; 种 指令 在 程序 中 所 占 的 比例 。 
CPI = 六 (CCPI x 已 ) = 程序 总 时 钟 周期 数 二 程序 所 合 指令 条 数 


因此 , 若 已 知 程序 综合 CPI 和 指令 条 数 , 则 可 用 下 列 公 式 计算 CPU 时 间 : 
CPU 执行 时 间 = CPI X 程序 总 指令 条 数 X 时 钟 周期 

有 了 CPU 执行 时 间 ,就 可 以 评判 两 台 计 算 机 性 能 的 好 坏 。 计 算 机 的 性 能 可 以 看 成 是 
CPU 时 间 的 倒数 ,因此 ,两 台 计 算 机 性 能 之 比 就 是 CPU 时 间 之 比 的 倒数 。 若 计算 机 M1 和 
M2 的 性 能 之 比 为 ” 则 说 明 * 计 算 机 M1 的 速度 是 计算 机 M2 的 速度 的 n 倍 ”, 也 就 是 说 ， 
“在 计算 机 M2 上 执行 程序 的 时 间 是 在 计算 机 M1 上 执行 时 间 的 n 售 ”。 

CPU 时 间 度 量 公式 中 的 时 钟 周期 指令 条 数 、CPI 三 个 因素 是 相互 制约 的 。 例 如 ,更 改 
指令 集 可 以 减少 程序 所 含 指令 的 条 数 ,但 是 ,同时 可 能 引起 CPU 结构 的 调整 ,从 而 可 能 会 
增加 时 钟 周 期 的 宽度 ( 即 降低 时 钟 频率 ) 。 对 于 解决 同一 个 问题 的 不 同 程序 ,即使 是 在 同一 
台 计 算 机 上 ,指令 条 数 最 少 的 程序 也 不 一 定 执行 得 最 快 。 有 关 时 钟 周 期 、 指 令 条 数 和 CPI 
的 相互 制约 关系 ,在 学 完 后 面 有 关 指 令 系 统 设 计 、 数 据 通路 设计 等 章节 后 ,会 有 更 深刻 的 认 
识 和 理解 。 

例 1.1 假设 某 个 频繁 使 用 的 程序 P 在 机 器 Ml 上 运行 需要 10s, M1 的 时 钟 频率 为 
2GHz。 设计 人 员 想 开发 一 台 与 M1 具有 相同 ISA 的 新 机 器 M2。 采 用 新 技术 可 使 M2 的 时 
钟 频 率 增加 ,但 同时 也 会 使 CPI 增加 。 假 定 程序 P 在 M2 上 的 时 钟 周期 数 是 在 M1 上 的 
1.5 倍 , 则 M2 的 时 钟 频率 至 少 达到 多 少 才能 使 程序 P 在 M2 上 的 运行 时 间 缩 短 为 6s? 

解 : 程序 P 在 机 器 M1 上 的 时 钟 周期 数 为 CPU 执行 时 间 X 时 钟 频率 二 10sX 2GHz= 
2X10"。 因 此 ,程序 P 在 机 器 M2 上 的 时 钟 周 期 数 为 1. 5X2X10” 二 3X10”。 要 使 程序 
P 在 M2 上 的 运行 时 间 缩 短 到 6s, 则 M2 的 时 钟 频 率 至 少 应 为 程序 所 含 时 钟 周 期 数 二 CPU 
执行 时 间 王 3X102/6s 一 5GHz。 

由 此 可 见 ,M2 的 时 钟 频率 是 Ml 的 2.5 倍 , 但 M2 的 速度 却 只 是 M1 的 1.67 倍 。 
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上 述 例 子 说 明 , 由 于 时 钟 频率 的 提高 可 能 会 对 CPU 结构 带 来 影响 ,从 而 使 其 他 性 能 指 
标 降低 ,因此 ,虽然 时 钟 频率 提高 会 加 快 CPU 执行 程序 的 速度 ,但 不 能 保证 执行 速度 有 相 
同 倍数 的 提高 。 

例 1.2 假设 计算 机 M 的 指令 集中 包含 A、B、C 三 类 指令 ,其 CPI 分 别 为 1.2.4。 某 个 
程序 P 在 M 上 被 编译 成 两 个 不 同 的 目标 代码 序列 P1 和 P2,P1 所 含 A、B、C 三 类 指令 的 条 
数 分 别 为 8.2、2,P2 所 含 A、B、C 三 类 指令 的 条 数 分 别 为 2.5、. 3。 请问 : 哪个 代码 序列 指令 
条 数 少 ? 哪个 执行 速度 快 ? 它们 的 CPI 分 别 是 多 少 ? 

解 : P1 和 了 P2 的 指令 条 数 分 别 为 12 和 10 ,所 以 ,P2 的 指令 条 数 少 。 

P1 的 时 钟 周 期 数 为 8&X1 十 2X2 十 2X4 一 20。 

P2 的 时 钟 周期 数 为 2X1 十 5X2 十 3X4=24。 

因为 两 个 指令 代码 序列 在 同一 台 机 器 上 运行 ,所 以 时 钟 周期 一 样 , 故 时 钟 数 少 的 代码 序 
列 所 用 时 间 短 ,执行 速度 快 。 显 然 ,P1 比 P2 快 。 

从 上 述 结果 来 看 ,指令 数 少 的 代码 序列 执行 时 间 并 不 更 短 。 

CPI== 程 序 总 时 钟 周期 数 二 程序 所 含 指令 条 数 , 因 此 ,Pl 的 CPI 为 20/12=1.67;P2 的 
CPI 为 24/10=2.4。 

上 述 例 子 说 明 ,指令 条 数 少 并 不 代表 执行 时 间 短 ,同样 ,时 钟 频 率 高 也 不 说 明 执 行 速度 
快 。 在 评价 计算 机 性 能 时 , 仅 考 虑 单个 因素 是 不 全 面 的 ,必须 3 个 因素 同时 考虑 。1. 5. 3 节 
介绍 的 性 能 指标 MIPS 曾 被 普遍 使 用 , 它 就 没有 考虑 所 有 3 个 因素 ,所 以 用 它 来 评价 性 能 有 
时 会 得 到 不 准确 的 结论 。 


1.5.3 用 指令 执行 速度 进行 性 能 评估 


最 早 用 来 衡量 计算 机 性 能 的 指标 是 每 秒 钟 完 成 单个 运算 (如 加 法 运算 ) 指 令 的 条 数 。 当 
时 大 多 数 指令 的 执行 时 间 是 相同 的 ,并 且 加 法 指令 能 反映 乘 、 除 等 运算 性 能 ,其 他 指令 的 时 
间 大 体 与 加 法 指令 相当 , 故 加 法 指令 的 速度 有 一 定 的 代表 性 。 指 令 速 度 所 用 的 计量 单位 为 
MIPS(Million Instructions Per Second) ,其 含义 是 平均 每 秒 钟 执行 多 少 百 万 条 指令 。 

早期 还 有 一 种 类 似 于 MIPS 的 性 能 估计 方式 ,就 是 指令 平均 执行 时 间 , 也 称 等 效 指令 速 
度 法 或 Gibson 混合 法 。 随 着 计算 机 体系 结构 的 发 展 ,不 同 指令 所 需 的 执行 时 间 差 别 越 来 越 
大 ,人 们 就 根据 等 效 指 令 速度 法 通过 统计 各 类 指令 在 程序 中 所 占 比 例 进 行 折算 。 设 某 类 指 
令 i 在 程序 中 所 占 比例 为 wi, 执行 时 间 为 t;, 则 等 效 指令 的 执行 时 间 为 : T= 二 wi Xt 十 w, X 
三 十 … 十 ws Xt,(n 为 指令 种 类 数 )。 若 指令 执行 时 间 用 时 钟 周期 数 来 衡量 , 则 上 式 计算 的 结 
果 就 是 CPI。 对 指令 平均 执行 时 间 求 倒数 能 够 得 到 MIPS 值 。 

选取 一 组 指令 组 合 , 使 得 得 到 的 平均 CPI 最 小 ,由 此 得 到 的 MIPS 就 是 峰值 MIPS 
(peak MIPS) 。 有 些 制造 商 经 常 将 峰值 MIPS 直接 当 作 MIPS ,而 实际 上 的 性 能 要 比 标 称 的 
性 能 差 。 

相对 MIPS(relative MIPS) 是 根据 某 个 公认 的 参考 机 型 来 定义 的 相应 MIPS 值 ,其 值 的 
含义 是 被 测 机 型 相对 于 参考 机 型 MIPS 的 多 少 倍 。 

MIPS 反映 了 机 器 执行 定点 指令 的 速度 ,但 是 ,用 MIPS 来 对 不 同 的 机 器 进行 性 能 比较 
有 时 是 不 准确 或 不 客观 的 。 因 为 不 同 机 器 的 指令 集 不 同 ,而 且 指 令 的 功能 也 不 同 ,也 许 在 机 
器 M1 上 某 一 条 指令 的 功能 ,在 机 器 M2 上 要 用 多 条 指令 来 完成 ,因此 ,同样 的 指令 条 数 所 
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完成 的 功能 可 能 完全 不 同 ; 另 外 ,不 同 机 器 的 CPI 和 时 钟 周期 也 不 同 , 因 而 同一 条 指令 在 不 
同 机 器 上 所 用 的 时 间 也 不 同 。 下 面 的 例子 可 以 说 明 这 点 。 

例 1.3 假定 某 程序 了 编译 后 生成 的 目标 代码 由 A、B、C、D 四 类 指令 组 成 ,它们 在 程序 
中 所 占 的 比例 分 别 为 43%、21%、12%、24% ,已 知 它们 的 CPI 分别 为 1.2、2、2。 现 重新 对 程 
序 P 进行 编译 优化 ,生成 的 新 目标 代码 中 A 类 指令 条 数 减 少 了 50% ,其 他 类 指令 的 条 数 没 
有 变 。 请 回答 下 列 问 题 。 

(1) 编译 优化 前 后 程序 的 CPI 各 是 多 少 ? 

(2) 假定 程序 在 一 台 主 频 为 50MHz 的 计算 机 上 运行 , 则 优化 前 后 的 MIPS 各 是 多 少 ? 

解 : 优化 后 A 类 指令 的 条 数 减 少 了 50%, 因 而 各 类 指令 所 占 比例 分 别 计算 如 下 。 

A 类 指令 ; 21.5/(21.5 十 21 十 12 十 24) = 27% 
B 类 指令 : 21/(21.5 十 21 十 12 十 24) = 27% 
C 类 指令 : 12/(21.5 十 21 十 12 十 24) = 15% 
D 类 指令 : 24/(21.5 十 21 十 12 十 24) = 31% 
(1) 优化 前 后 程序 的 CPI 分 别 计算 如 下 。 
优化 前 : 43% X1 二 21% X2 十 12% X2 二 24% X2=1.57 
优化 后 : 27% X1 二 27% X2 十 15% X231% X2=1.73 
(2) 优化 前 后 程序 的 MIPS 分 别 计算 如 下 。 
优化 前 : 50M/1. 57 = 31. 8MIPS 
优化 后 : 50M/1. 73 = 28. 9MIPS 

从 MIPS 数 来 看 ,优化 后 程序 执行 速度 反而 变 慢 了 。 

这 显然 是 错误 的 ,因为 优化 后 只 减少 了 A 类 指令 条 数 而 其 他 指令 数 没 变 , 所 以 程序 执 
行 时 间 一 定 减少 了 。 从 这 个 例子 可 以 看 出 ,用 MIPS 数 来 进行 性 能 估计 是 不 可 靠 的 。 

与 定点 指令 运行 速度 MIPS 相对 应 的 用 来 表示 浮 点 操作 速度 的 指标 是 MFLOPS 
(Million FLOating-point operations Per Second) 。 它 表示 每 秒 所 执行 的 浮 点 运算 有 多 少 百 
万 次 , 它 是 基于 所 完成 的 操作 次 数 而 不 是 指令 数 来 衡量 的 。 类 似 的 衡量 浮 点 操作 速度 的 指 
标 还 有 GFLOPS(10? 次 / 秒 ) TFLOPS(102 次 / 秒 ) 和 PFLOPS(105 次 / 秒 ) 等 。 


1.5.4 用 基准 程序 进行 性 能 评估 


基准 程序 (benchmarks) 是 进行 计算 机 性 能 评测 的 一 种 重要 工具 。 基 准 程序 是 专门 用 
来 进行 性 能 评价 的 一 组 程序 ,能 够 很 好 地 反映 机 器 在 运行 实际 负载 时 的 性 能 ,可 以 通过 在 不 
同 机 器 上 运行 相同 的 基准 程序 来 比较 在 不 同 机 器 上 的 运行 时 间 , 从 而 评测 其 性 能 。 基 准 程 
序 最 好 是 用 户 经 常 使 用 的 一 些 实际 程序 ,或 是 某 个 应 用 领域 的 一 些 典 型 的 简单 程序 。 对 于 
不 同 的 应 用 场合 ,应 该 选择 不 同 的 基准 程序 。 例 如 ,对 用 于 软件 开发 的 计算 机 进行 评测 时 ， 
最 好 选择 包含 编译 器 和 文档 处 理 软件 的 一 组 基准 程序 ;而 如 果 是 对 用 于 CAD 处 理 的 计算 
机 进行 评测 时 ,最 好 选择 一 些 典 型 的 图 形 处 理 小 程序 作为 一 组 基准 程序 。 

基准 程序 是 一 个 测试 程序 集 , 由 一 组 程序 组 成 。 例 如 ,SPEC 测试 程序 集 是 应 用 最 广 
泛 .也 是 最 全 面 的 性 能 评测 基准 程序 集 。1988 年 ,由 Sun、MIPS、HP、Apollo、DEC 五 家 
公司 联合 提出 了 SPEC 标准 。 它 包括 一 组 标准 的 测试 程序 .标准 输入 和 测试 报告 。 这 些 测 
试 程序 是 一 些 实际 的 程序 ,包括 系统 调用 、.I/O 等 。 最 初 提出 的 基准 程序 集 分 成 两 类 : 整数 
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测试 程序 集 SPECint 和 浮 点 测试 程序 集 SPECfp。 后 来 分 成 了 按 不 同性 能 测试 用 的 基准 程 
序 集 ,如 CPU 性 能 测试 集 (SPEC CPU2000)、Web 服务 器 性 能 测试 集 (SPECweb99) 等 。 

如 果 基 准 测 试 程序 集中 不 同 的 程序 在 两 台 机 器 上 测试 得 出 的 结论 不 同 , 则 如 何 给 出 最 
终 的 评价 结论 呢 ? 例如 ,假定 基准 测试 程序 集 包 含 程序 Pl 和 P2 ,程序 Pl 在 机 器 Ml 和 机 
器 M2 上 运行 的 时 间 分 别 是 10s 和 2s, 程 序 P2 在 机 器 M1 和 机 器 M2 上 运行 的 时 间 分 别 是 
120s 和 600s, 即 : 对 于 P1,M2 的 速度 是 M1 的 5 倍 ; 而 对 于 P2,M1 的 速度 是 M2 的 5 倍 ， 
那么 ,到底 是 Ml 还 是 M2 更 快 呢 ? 可 以 用 所 有 程序 的 执行 时 间 之 和 来 比较 ,例如 ,Pl 和 了 2 
在 Ml 上 的 执行 时 间 总 和 为 130s, 而 在 M2 上 的 总 时 间 为 602s, 故 M1 比 M2 快 。 但 通常 不 
这 样 做 ,而 是 采用 执行 时 间 的 算术 平均 值 或 几何 平均 值 来 综合 评价 机 器 的 性 能 。 如 果 考 虑 
每 个 程序 的 使 用 频 度 而 用 加 权 平 均 的 方式 ,结果 会 更 准确 。 

也 可 以 将 执行 时 间 进行 归 一 化 来 得 到 被 测试 的 机 器 相对 于 参考 机 器 的 性 能 。 

执行 时 间 的 归 一 化 值 三 参考 机 器 上 的 执行 时 间 二 被 测 机 器 上 的 执行 时 间 

例如 ,SPEC 比值 (SPEC ratio) 是 指 将 测试 程序 在 Sun SPARCstation 上 运行 时 的 执行 
时 间 除 以 该 程序 在 测试 机 器 上 的 执行 时 间 所 得 到 的 比值 。 比 值 越 大 ,机 器 的 性 能 越 好 。 

使 用 基准 程序 进行 计算 机 性 能 评测 也 存在 一 些 缺 陷 , 因 为 基准 程序 的 性 能 可 能 与 某 一 
小 段 的 短 代码 密切 相关 ,此 时 ,硬件 系统 设计 人 员 或 编译 器 开发 者 可 能 会 针对 这 些 代码 片段 
进行 特殊 的 优化 ,使 得 执行 这 段 代码 的 速度 非常 快 , 以 至 于 得 到 不 准确 的 性 能 评测 结果 。 例 
如 ,Intel Pentium 处 理 器 运行 SPECint 时 用 了 公司 内 部 使 用 的 特殊 编译 器 ,使 其 性 能 表现 
得 很 高 ,但 用 户 实 际 使 用 的 是 普通 编译 器 , 达 不 到 所 标 称 的 性 能 。 又 如 ,矩阵 乘法 程序 
SPECmatrix300 有 99% 的 时 间 运 行 在 一 行 语句 上 ,有 些 厂商 用 特殊 编译 器 优化 该 语句 ,使 
性 能 达到 VAX 11/780 的 729.8 倍 ! 


1.6 本 章 小 结 


本 章 主要 对 计算 机 系统 做 了 概括 性 的 介绍 ,指出 了 本 教材 内 容 在 整个 计算 机 系统 中 的 
位 置 ,并 对 计算 机 系统 的 性 能 评价 做 了 简要 说 明 。 

计算 机 在 控制 器 的 控制 下 ,能 完成 数据 处 理 、 数 据 存 储 和 数据 传输 3 个 基本 功能 ,因而 
它 由 完成 相应 功能 的 控制 器 .运算 器 .存储 器 .输入 和 输出 设备 组 成 。 在 计算 机 内 部 ,指令 和 
数据 用 二 进 制 表示 ,同时 存放 在 存储 器 中 , 按 地 址 访问 ,两 者 形式 上 没有 任何 差别 。 计 算 机 
采用 “存储 程序 ”方式 进行 工作 。 计 算 机 系统 采用 分 层 或 抽象 的 方式 构成 ,通过 向 上 层 用 户 
提供 一 个 抽象 的 简洁 接口 而 将 较 低层 次 的 实现 细节 隐藏 起 来 。 在 底层 系统 软件 和 硬件 之 间 
的 抽象 层 就 是 指令 集体 系 结构 (ISA) 或 简称 体系 结构 。 硬 件 和 软件 相辅相成 , 缺 一 不 可 ,两 
者 都 用 来 实现 逻辑 功能 ,同一 功能 可 用 硬件 实现 ,也 可 用 软件 实现 。 

计算 机 完成 一 个 任务 的 大 致 过 程 如 下 : 用 某 种 程序 设计 语言 编制 源 程序 ;用 语言 处 理 
程序 将 源 程序 翻译 成 机 器 语言 目标 程序 ;将 目标 程序 中 的 指令 和 数据 装 和 内存, 然后 从 第 一 
条 指令 开始 执行 ,直到 程序 所 含 指令 全 部 执行 完 。 每 条 指令 的 执行 包括 取 指 令 、 指 令 译 码 、 
取 操 作 数 .运算 . 送 结果 等 操作 。 

计算 机 系统 基本 性 能 指标 包括 响应 时 间 、 知 吐 率 。 处 理 器 的 基本 性 能 参数 包括 时 钟 周 
期 (或 主 频 )、CPI、MIPS、MFLOPS 等 。 一般 把 程序 的 响应 时 间 划 分 成 CPU 时 间 和 等 待 时 
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间 ,CPU 时 间 又 分 成 用 户 CPU 时 间 和 系统 CPU 时 间 。 因 为 操作 系统 对 自己 所 花费 的 时 间 
进行 测量 时 不 十 分 准确 ,所 以 ,对 CPU 性 能 的 测量 一 般 通 过 测量 用 户 CPU 时 间 来 进行 。 





习 题 
1. 给 出 以 下 概念 的 解释 说 明 。 
系列 机 兼容 性 中 央 处 理 器 (CPU) 算术 人 逻辑 单元 (ALU) 
数据 通路 控制 器 主 存 系统 软件 
应 用 软件 高 级 语言 汇编 语言 机 器 语言 
源 程序 目标 程序 编译 程序 解释 程序 
汇编 程序 操作 系统 最 终 用 户 系统 管理 员 
应 用 程序 员 系统 程序 员 指令 系统 指令 集体 系 结构 (ISA) 
透明 性 响应 时 间 吞吐 率 CPU 执行 时 间 
用 户 CPU 时 间 系统 CPU 时 间 系统 性 能 CPU 性 能 
时 钟 周期 主 频 CPI 基准 程序 
SPEC 基准 程序 集 SPEC 比值 MIPS 峰值 MIPS 
相对 MIPS MFLOPS 


2. 简单 回答 下 列 问题 。 

(1) 冯 ， 诺 依 曼 计算 机 由 哪 几 部 分 组 成 ? 各 部 分 的 功能 是 什么 ? 采用 什么 工作 方式 ? 

(2) 摩尔 定律 的 主要 内 容 是 什么 ? 

(3) 计算 机 系统 的 层次 结构 如 何 划分 ? 计算 机 系统 的 用 户 可 分 哪 几 类 ? 每 类 用 户 工作 在 哪个 层次 ? 

(4) 程序 的 CPI 与 哪些 因素 有 关 ? 

(5) 为 什么 说 性 能 指标 MIPS 不 能 很 好 地 反映 计算 机 的 性 能 ? 

3. 假定 你 的 朋友 不 太 懂 计算 机 ,请 用 简单 通俗 的 语言 向 你 的 朋友 介绍 计算 机 系统 是 如 何 工作 的 。 

4. 你 对 计算 机 系统 的 哪些 部 分 最 熟悉 ? 对 哪些 部 分 最 不 熟悉 ? 最 想 进 一 步 了 解 细节 的 是 哪些 部 分 的 
内 容 ? 

5. 若 有 两 个 基准 测试 程序 Pl 和 P2 在 机 器 Ml 和 M2 上 运行 ,假定 Ml 和 M2 的 价格 分 别 是 5000 元 
和 8000 元 ,下 表 给 出 了 P1 和 P2 在 M1 和 M2 上 所 花 的 时 间 和 指令 条 数 。 


M1 M2 
执行 时 间 /ms 指令 条 数 
10 000 150X105 5000 





指令 条 数 
P1 200X105 








P2 300X103 3 420X103 6 














请 回答 下 列 问 题 : 

(1) 对 于 P1, 哪 台 机 器 的 速度 快 ? 快 多 少 ? 对 于 P2 呢 ? 

(2) 在 ML 上 执行 Pl 和 P2 的 速度 分 别 是 多 少 MIPS? 在 M2 上 的 执行 速度 又 各 是 多 少 ? 从 执行 速度 
来 看 ,对 于 P2, 哪 台 机 器 的 速度 快 ? 快 多 少 ? 

(3) 假定 ML 和 M2 的 时 钟 频率 各 是 800MHz 和 1.2GHz, 则 在 Ml 和 M2 上 执行 Pl 时 的 平均 时 钟 周期 
数 CPI 各 是 多 少 ? 

(4) 如 果 某 个 用 户 需要 大 量 使 用 程序 P1 ,并 且 该 用 户主 要 关心 系统 的 响应 时 间 而 不 是 吞吐 率 , 那 么 ， 
该 用 户 需 要 大 批 购 进 机 器 时 ,应 该 选择 M1 还 是 M2? 为 什么 ? (提示 : 从 性 价 比 上 考虑 。) 

(5) 如 果 另 一 个 用 户 也 需要 购 进 大 批 机 器 ,但 该 用 户 使 用 Pl 和 P2 一 样 多 ,主要 关心 的 也 是 响应 时 


计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





间 ,那么 ,应 该 选择 M1 还 是 M2? 为 什么 ? 
6. 若 机 器 M1 和 M2 具有 相同 的 指令 集 ,其 时 钟 频率 分 别 为 1GHz 和 1.5GHz。 在 指令 集中 有 5 种 不 
同类 型 的 指令 A 一 下 。 下 表 给 出 了 在 Ml 和 M2 上 每 类 指令 的 平均 时 钟 周期 数 CPI。 


机 器 A B C D E 





Mi 1 2 2 3 4 




















M2 2 2 4 5 6 


请 回答 下 列 问 题 : 

(1) Ml 和 M2 的 峰值 MIPS 各 是 多 少 ? 

(2) 假定 某 程序 P 的 指令 序列 中 ,5 类 指令 具有 完全 相同 的 指令 条 数 , 则 程序 P 在 ML 和 M2 上 运行 
时 , 哪 台 机 器 更 快 ? 快 多 少 ? 在 M1 和 M2 上 执行 程序 P 时 的 平均 时 钟 周期 数 CPI 各 是 多 少 ? 

7. 假设 同一 套 指令 集 用 不 同 的 方法 设计 了 两 种 机 器 Ml 和 M2。 机 器 Ml 的 时 钟 周期 为 0. 8ns, 机 器 
M2 的 时 钟 周期 为 1. 2ns。 某 个 程序 P 在 机 器 Ml 上 运行 时 的 CPI 为 4, 在 M2 上 的 CPI 为 2。 对 于 程序 
P 来 说 , 哪 台 机 器 的 执行 速度 更 快 ? 快 多 少 ? 

8. 假设 某 机 器 M 的 时 钟 频率 为 4GHz, 用 户 程序 P 在 M 上 的 指令 条 数 为 8X10 ,其 CPI 为 1.25, 则 
P 在 M 上 的 执行 时 间 是 多 少 ? 若 在 机 器 M 上 从 程序 P 开 始 启 动 到 执行 结束 所 需 的 时 间 是 4s, 则 P 占用 的 
CPU 时 间 的 百分比 是 多 少 ? 

9. 假定 某 编译 器 对 某 段 高 级 语言 程序 编译 生成 两 种 不 同 的 指令 序列 S1 和 S2, 在 时 钟 频率 为 500MHz 
的 机 器 M 上 运行 ,目标 指令 序列 中 用 到 的 指令 类 型 有 A、B、C 和 DD 四 类 。 每 类 指令 在 M 上 的 CPI 和 两 个 
指令 序列 所 用 的 各 类 指令 条 数 如 下 表 所 示 。 























A B 起 D 
各 指令 的 CPI 1 2 3 4 
S1 的 指令 条 数 5 2 1 
S2 的 指令 条 数 1 1 1 5 


请 问 : Sl1 和 S2 各 有 多 少 条 指令 ? CPI 各 为 多 少 ? 所 含 的 时 钟 周期 数 各 为 多 少 ? 执行 时 间 各 为 多 少 ? 

10. 假定 机 器 M 的 时 钟 频率 为 1.2GHz, 某 程序 P 在 机 器 M 上 的 执行 时 间 为 12s。 对 了 优化 时 ,将 其 
所 有 的 乘 4 指令 都 换 成 了 一 条 左 移 两 位 的 指令 ,得 到 优化 后 的 程序 P'。 已 知 在 M 上 乘法 指令 的 CPI 为 5， 
左 移 指令 的 CPI 为 2,P 的 执行 时 间 是 P' 执 行 时间 的 1.2 倍 , 则 P 中 有 多 少 条 乘法 指令 被 替换 成 了 左 移 指 
令 被 执行 ? 





9 
数据 的 机 器 级 表示 


数据 是 计算 机 处 理 的 对 象 。 从 不 同 的 处 理 角度 来 看 ,数据 有 不 同 的 表现 形态 。 从 外 部 
形式 来 看 ,计算 机 可 处 理 数值 文字、 图、 声音 、 视 频 以 及 各 种 模拟 信息 。 从 算法 描述 的 角度 
来 看 ,有 图 、 表 、 树 .队列 ,矩阵 等 结构 类 型 的 数据 。 从 高 级 语言 程序 员 的 角度 来 看 ,有 数组 、 
结构 指针、 实数 .整数 ,布尔 数 ,字符 和 字符 串 等 类 型 的 数据 。 不 管 以 什么 形态 出 现 , 在 计算 
机 内 部 数据 最 终 都 由 机 器 指令 来 处 理 。 从 计算 机 指令 集体 系 结构 (ISA) 角 度 来 看 ,计算 机 
中 底层 的 机 器 级 表示 数据 只 有 几 类 简单 的 基本 数据 类 型 。 

本 章 重 点 讨论 计算 机 内 部 数据 的 机 器 级 表示 方式 。 主 要 内 容 包 括 进 位 记 数 制 、 二 进 制 
定点 数 的 编码 表示 ,无 符号 整数 和 带 符号 整数 的 表示 、IEEE 754 浮 点 数 表示 标准 、 西 文字 符 
和 汉字 的 编码 表示 ,十进制 数 的 二 进 制 编码 表示 ( 即 BCD 码 )、C 语言 中 各 种 类 型 数据 的 表 
示 和 转换 ,数据 的 宽度 和 存放 顺序 以 及 几 种 常用 检 / 纠 错 码 的 编码 表示 与 使 用 方法 。 


2.1 数 制 和 编码 


“2.1.1 信息 的 二 进 制 编 码 


计算 机 内 部 处 理 的 所 有 数据 都 必须 是 “数字 化 编码 ”了 的 数据 。 现 实 世 界 中 的 感觉 媒体 
信息 (如 声音 文字、 图 画 、 活 动 图 像 等 ) 由 输入 设备 转化 为 二 进 制 编码 表示 ,因此 ,输入 设备 
必须 具有 “离散 化 ”和 “编码 ”两 方面 的 功能 。 因 为 计算 机 中 用 来 存储 、 加 工 和 传输 数据 的 部 
件 都 是 位 数 有 限 的 部 件 , 所 以 ,计算 机 中 只 能 表示 和 处 理 离散 的 信息 。“ 数 字 化 编码 ”过 程 ， 
就 是 指 对 感觉 媒体 信息 进行 定时 采样 ,将 现实 世界 中 的 连续 信息 转换 为 计算 机 中 的 离散 的 
“样本 ”信息 ,然后 对 它们 用 0 和 1 进行 数字 化 编码 的 过 程 。 所 谓 编码 ,就 是 用 少量 简单 的 基 
本 符号 对 大 量 复杂 多 样 的 信息 进行 一 定 规律 的 组 合 。 基 本 符号 的 种 类 和 组 合 规则 是 信息 编 
码 的 两 大 要 素 。 例 如 ,电报 码 中 用 4 位 十 进 制 数字 表示 汉字 ;从 键盘 上 输入 汉字 时 用 汉语 拼 
音 ( 即 26 个 英文 字母 ) 表 示 汉 字 等 ,都 是 编码 的 典型 例子 。 

在 计算 机 系统 内 部 ,所 有 信息 都 是 用 二 进 制 进行 编码 的 。 也 就 是 说 计算 机 内 部 采用 的 
是 二 进 制 表示 方式 。 这 样 做 的 原因 有 以 下 几 点 。 

(1) 二 进 制 只 有 两 种 基本 状态 ,使 用 有 两 个 稳定 状态 的 物理 器 件 就 可 以 表示 二 进 制 数 
的 每 一 位 ,而 制造 有 两 个 稳定 状态 的 物理 器 件 要 比 制造 有 多 个 稳定 状态 的 物理 器 件 容易 得 
多 。 例 如 ,用 高 、 低 两 个 电位 ,或 用 脉冲 的 有 无 ,或 脉冲 的 正 负极 性 等 都 可 以 很 方便 、 很 可 靠 
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地 表示 0 和 1。 

(2) 二 进 制 的 编码 和 运算 规则 都 很 简单 。 可 用 开关 电路 实现 ,简便 易 行 。 

(3) 两 个 符号 1 和 0 正好 与 逻辑 命题 的 两 个 值 真 ” 和 “ 假 >? 相 对 应 ,为 计算 机 中 实现 逻 
辑 运 算 和 程序 中 的 逻辑 判断 提供 了 便利 的 条 件 ,特别 是 能 通过 逻辑 门 电路 方便 地 实现 算术 
运算 。 

采用 二 进 制 编码 将 各 种 媒体 信息 转变 成 数字 化 信息 后 ,可 以 在 计算 机 内 部 进行 存储 、 处 
理 和 传送 。 在 高 级 语言 程序 中 ,可 以 用 图 、 树 、 表 和 队列 等 进行 算法 描述 ,并 能 以 数组 结构 、 
指针 和 字符 串 等 数据 类 型 来 说 明 处 理 对 象 ,但 将 高 级 语言 程序 转换 为 机 器 语言 程序 后 ,每 条 
指令 的 操作 数 就 只 能 是 某 种 简单 的 基本 数据 类 型 。 如 图 2. 1 中 虚线 框 内 所 示 ,指令 所 处 理 
的 基本 数据 类 型 分 为 两 种 : 数值 型 数据 和 非 数 值 型 数据 。 数 值 型 数据 可 用 来 表示 数量 的 多 
少 , 可 比较 其 大 小 ,分 为 整数 和 实数 ,整数 又 分 为 无 符号 整数 和 带 符号 整数 。 在 计算 机 内 部 ， 
整数 用 定点 数 表示 ,实数 用 浮 点 数 表示 。 非 数值 型 数据 没有 大 小 之 分 ,不 表示 数量 的 多 少 ， 
主要 包括 字符 数据 和 人 逻辑 数据 。 



































文字 、 图 、 表 、 声音、 
视频 等 各 种 媒体 信息 。 | 最 终 用 户 角 度 
1 1 

输入 设备 输出 设备 
































二 进 制 编码 表示 的 各 种 数据 














| 图 、 桂 、 链 表 等 结构 化 数据 描述 | 高 级 语言 程序 员 角 度 








指令 系统 能 识别 | 低级 语言 程序 员 和 
的 基本 类 型 数据 “| 硬件 系统 设计 者 角度 


1 
数值 型 数据 非 数值 型 数据 


1 1 
1 1 
上 | 
1 1 
I 1 
上 | 
1 1 
1 1 
上 | 
1 1 
1 1 
上 | 
1 二 进 制 数 | | 二 进 制 编码 的 | | 逻辑 数据 编码 字符 | 
| 十 进 制 数 如 西 文字 符 和 汉字 | 
1 1 
1 | 
1 1 
1 1 
上 | 
1 1 
上 1 
1 1 
1 1 
















































































整数 (定点 数 ) | | 实数 ( 浮 点 数 ) 


一 一 


无 符号 整数 | | 带 符号 整数 
































图 2.1 计算 机 外 部 信息 与 内 部 数据 的 转换 


日 常生 活 中 , 常 使 用 带 正 负 号 的 十 进 制 数 表 示 数 值 数 据 , 例 如 6. 18、 一 127 等 。 但 这 种 
形式 的 数据 在 计算 机 内 部 难以 直接 存储 .运算 和 传输 。 通 常 的 十 进 制 数 仅 仅 是 一 种 数值 数 
据 的 输入 输出 形式 ,而 不 是 计算 机 内 部 的 表示 形式 。 

在 计算 机 内 部 ,数值 数据 的 表示 方法 有 两 种 : 一 种 是 直接 用 二 进 制 数 表示 , 男 一 种 是 采 


发 据 的 所 可 级 表示 


用 二 进 制 编码 的 十 进 制 数 (Binary Coded Decimal Number,BCD) 表 示 。 

表示 一 个 数值 数据 要 确定 3 个 要 素 : 进位 记 数 制定 点 / 浮 点 表示 和 编码 规则 。 任 何 给 
定 的 一 个 二 进 制 0/1 序列 ,在 未 确定 它 采用 什么 进位 记 数 制定 点 还 是 浮 点 表示 以 及 编码 表 
示 方 法 之 前 , 它 所 代表 的 数值 数据 的 值 是 无 法 确定 的 。 


“2.1.2 进位 记 数 制 


日 常生 活 中 基本 上 都 使 用 十 进 制 数 ,其 每 个 数位 可 用 十 个 不 同 符号 0,1,2,…,9 来 表 
示 , 每 个 符号 处 在 十 进 制 数 中 不 同位 置 时 ,所 代表 的 数值 不 一 样 。 例 如 ,2585. 62 代表 的 
值 是 
(2585. 62)10 =2X10; 十 5X10? 十 8X10! 十 5X10° 十 6X10-!1 十 2X10™ 
一 般 地 ,对 于 任意 一 个 十 进 制 数 : 
DD= dd,…dido. di1d_s…d_,。 (mn 为 正 整数 ) 
其 值 应 为 
VD) =d, X10"+d, 1 X10 王 十 … 十 四 X10 十 do X10 +d 1 X107 
4 有 0 X10* 
其 中 的 di(i=nyn 一 1,…,1,0, 一 1， 一 2,…, 一 m) 可 以 是 0,1,2,3,4,5,6,7,8,9 这 10 个 数 
字符 号 中 的 任何 一 个 ,10 称 为 基数 (base) , 它 代表 每 个 数位 上 可 以 使 用 的 不 同 数 字符 号 的 
个 数 。10' 称 为 第 ; 位 上 的 权 。 在 十 进 制 数 进行 运算 时 ,每 位 计 满 十 之 后 就 要 向 高 位 进 一 ， 
即日 常 所 说 的 “ 逢 十 进 一 ”。 
类 似 地 ,二进制 数 的 基数 是 2, 各 位 只 能 使 用 两 个 不 同 的 数字 符号 0 和 1, 运算 时 采用 
“ 逢 二 进 一 ” 的 规则 ,第 ;位 上 的 权 是 2。 例如 ,二 进 制 数 (100101. 01)* 代表 的 值 是 
(100101.01); =1X2 十 0X2 十 0X2 十 1X2 十 0X2 十 1X2 十 0X2 一 十 1X2 
=(3T.25 
一 般 地 ,对 于 任意 一 个 二 进 制 数 : 
也 一 0 pp00.010…0 (mn 为 正 整 数 ) 











其 值 应 为 
V(B) =6b, X26 X22 二 Tb X21 +b X24o1 X27 
二 bso X27 十 十 bX2™ 

其 中 的 6Gi=n,n 一 1,…,1,0, 一 1, 一 2,…, 一 m) 只 可 以 是 0 和 1 两 种 不 同 的 数字 符号 。 

扩展 到 一 般 情况 ,在 R 进 制 数 字 系 统 中 ,应 采用 RR 个 基本 符号 (0,1,2,…,R 一 1) 表 示 各 
位 上 的 数字 ,采用 “办 R 进 一 ”的 运算 规则 ,对 于 每 一 个 数位 i, 该 位 上 的 权 为 R'。R 被 称 为 
该 数字 系统 的 基数 。 

在 计算 机 系统 中 ,常用 的 几 种 进位 记 数 制 有 下 列 几 种 。 

二 进 制 及 一 2， 基 本 符号 为 0 和 1。 

八进制 及 一 8， 基 本 符号 为 0,1,2,3,4,5,6,7。 

十 六 进 制 R=16, 基本 符号 为 0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F。 

十 进 制 R==10, 基本 符号 为 0,1,2,3,4,5,6,7,8,9。 

表 2.1 列 出 了 二 、 八 .十 .十 六 进 制 4 种 进位 记 数 制 中 各 基本 数 之 间 的 对 应 关系 。 
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表 2.1 4 种 进位 制 数 之 间 的 对 应 关系 


















































二 进 制 数 八进制 数 十 进 制 数 十 六 进 制 数 
0000 0 0 0 
0001 1 下 
0010 2 2 2 
0011 3 3 3 
0100 4 4 4 
0101 5 & 
0110 6 6 6 
0111 7 7 7 
1000 10 8 8 
1001 11 9 9 
1010 12 10 A 
1011 13 11 B 
1100 14 12 C 
1101 15 18 D 
1110 16 14 E 
生计 于 15 F 





从 表 2.1 中 可 看 出 ,十 六 进 制 的 前 10 个 数字 与 十 进 制 中 前 10 个 数字 相同 ,后 6 个 基本 
符号 A,B,C,D,E,F 的 值 分 别 为 十 进 制 的 10,11,12,13,14,15。 在 书写 时 可 使 用 后 级 字母 
标识 该 数 的 进位 记 数 制 ,一 般 用 B(Binary) 表 示 二 进 制 ,用 OC(Octal) 表示 八进制 ,用 
D(Decimal) 表 示 十 进 制 (十 进 制 数 的 后 缀 可 以 省 略 ) ,而 H(Hexadecimal) 则 是 十 六 进 制 数 
的 后 缀 ,例如 ,二 进 制 数 10011B ,十 进 制 数 56D( 或 56) ,十 六 进 制 数 308FH、3C. 5H 等 。 

计算 机 内 部 所 有 的 信息 采用 二 进 制 编码 表示 。 但 在 计算 机 外 部 ,为 了 书写 和 阅读 的 方 
便 , 大 都 采用 八 . 十 或 十 六 进 制 表示 形式 。 因 此 ,计算 机 在 数据 输入 后 或 输出 前 都 必须 实现 








这 些 进 位 制 数 和 二 进 制 数 之 间 的 转换 。 以 下 介绍 各 进位 记 数 制 之 间 数 据 的 转换 方法 。 


1. R 进 制 数 转换 成 十 进 制 数 


任何 一 个 R 进 制 数 转换 成 十 进 制 数 时 ,只 要 “ 按 权 展开 ” 即 可 。 


例 2.1 将 二 进 制 数 (10101.01), 转换 成 十 进 制 数 。 


解 : (10101.01);= 二 (1 X2 十 0X2 十 1 X22? 十 0X2: 十 1X2" 十 0 X21 十 1 X27 ?)1o 二 


(21.25)10 


例 2.2 将 八进制 数 (307. 6)s 转换 成 十 进 制 数 。 


解 : (307.6)* 一 (3X8: 十 7X8" 十 6X8-)io 一 (199.75)io 


例 2.3 将 十 六 进 制 数 (3A. C)is 转 换 成 十 进 制 数 。 


解 : (3A.C)1i = 二 (3X16! 二 10X16" 十 12X16 1)1o 二 (58.75)ywo 


发 据 的 机 可 级 表示 


2. 十 进 制 数 转 换 成 R 进 制 数 

任何 一 个 十 进 制 数 转换 成 R 进 制 数 时 ,要 将 整数 和 小 数 部 分 分 别 进行 转换 。 

1) 整数 部 分 的 转换 

整数 部 分 的 转换 方法 是 “ 除 基 取 余 , 上 右 下 左 ”。 也 就 是 说 ,用 要 转换 的 十 进 制 整数 去 除 
以 基数 尺 ,将 得 到 的 余数 作为 结果 数据 中 各 位 的 数字 ,直到 余数 为 0 为止 。 上 面 的 余数 ( 先 
得 到 的 余数 ) 作 为 右边 低位 上 的 数位 ,下 面 的 余数 作为 左边 高 位 上 的 数位 。 

例 2.4 将 十 进 制 整数 135 分 别 转换 成 八进制 数 和 二 进 制 数 。 

解 : 将 135 分 别 除 以 8 和 2, 将 每 次 的 余数 按 从 低位 到 高 位 的 顺序 排列 如 下 : 


余数 ”低位 


余数 低位 





1 
1 
1 
sw 
0 











高 位 




















…1 ”高 位 





所 以 ,(135)o 王 (207)s 王 (10000111)，。 

2) 小 数 部 分 的 转换 

小 数 部 分 的 转换 方法 是 “ 乘 基 取 整 ,上 左下 右 ”。 也 就 是 说 ,用 要 转换 的 十 进 制 小 数 去 乘 
以 基数 尺 ,将 得 到 的 乘积 的 整数 部 分 作为 结果 数据 中 各 位 的 数字 ,小 数 部 分 继续 与 基数 
R 相 乘 。 以 此 类 推 ,直到 某 一 步 乘积 的 小 数 部 分 为 0 或 已 得 到 希望 的 位 数 为 止 。 最 后 ,将 上 
面 的 整数 部 分 作为 左边 高 位 上 的 数位 ,下 面 的 整数 部 分 作为 右边 低位 上 的 数位 。 

例 2.5 将 十 进 制 小 数 0. 6875 分 别 转换 成 二 进 制 数 和 八进制 数 。 


解 : 0.6875X2=1.375 整数 部 分 二 1 高 位 
0.375X2=0.75 整数 部 分 二 0 
0.75X2=1.5 整数 部 分 二 1 | 
0.5X2=1.0 整数 部 分 =1 低位 

所 以 ,(0. 6875)io 一 (0. 1011)，。 
0.6875X8=5.5 整数 部 分 二 5 高 位 
0.5X8=4.0 整数 部 分 二 4 低位 


所 以 ,(0. 6875)io 一 (0.54)s 。 

在 转换 过 程 中 ,可 能 乘积 的 小 数 部 分 总 得 不 到 0, 即 转换 得 到 希望 的 位 数 后 还 有 余数 ， 
这 种 情况 下 得 到 的 是 近似 值 。 

例 2.6 将 十 进 制 小 数 0. 63 转换 成 二 进 制 数 。 





解 : 0.63X2=1. 26 整数 部 分 二 1 高 位 
0.26X2=0, 52 整数 部 分 二 0 
0.52X2=1. 04 整数 部 分 二 1 | 
0.04X2=0. 08 整数 部 分 二 0 低位 
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所 以 ,(0. 63)io (0.1010),。 
3) 含 整数 和 小 数 部 分 的 数 的 转换 
只 要 将 整数 部 分 和 小 数 部 分 分 别 进行 转换 ,得 到 转换 后 相应 的 整数 部 分 和 小 数 部 分 , 然 
后 再 将 这 两 部 分 组 合 起 来 得 到 一 个 完整 的 数 。 
例 2.7 将 十 进 制 数 135. 6875 分 别 转换 成 二 进 制 数 和 八进制 数 。 
解 : (135. 6875)1 二 (10000111. 1011)。 一 (207. 54)s 
3. 二 、 八 ,十 六 进 制 数 的 相互 转换 
1) 八进制 数 转换 成 二 进 制 数 
八进制 数 转换 成 二 进 制 数 的 方法 很 简单 ,只 要 把 八进制 数 每 一 位 改写 成 等 值 的 3 位 二 
进 制 数 即 可 , 且 保 持 高 低位 的 次 序 不 变 。 八 进 制 数 与 二 进 制 数 的 对 应 关系 如 下 。 
(0)s =000 (1)s =001 (2)s =010 (3)s = 011 
(4)s =100 (5)s =101 (6)s =110 (7)s = 111 
例 2.8 将 (13.724)s 转换 成 二 进 制 数 。 
解 : (13.724)s 二 (001 011. 111 010 100), = 二 (1011. 1110101)， 
2) 十 六 进 制 数 转换 成 二 进 制 数 
十 六 进 制 数 转换 成 二 进 制 数 的 方法 与 八进制 数 转 换 成 二 进 制 数 的 方法 类 似 ,只 要 把 十 
六 进 制 数 的 每 一 位 改写 成 等 值 的 4 位 二 进 制 数 即 可 , 且 保 持 高 低位 的 次 序 不 变 。 十 六 进 制 
数 与 二 进 制 数 的 对 应 关系 如 下 。 
(0)is 一 0000 (1)1 一 0001 (2)ie = 0010 (3) = 0011 
CD = ,000 6700 6)is =0110 C7 =011i 
(8)16 = 1000 (9)16 =1001 (A)is =1010 (B)1is = 1011 
(C)is =1100 (D)i = 1101 (E)i =1110 (Fi = 1111 
例 2.9 将 十 六 进 制 数 (2B. 5E) 1 转换 成 二 进 制 数 。 
解 : (2B. 5E)1 二 (0010 1011. 0101 1110),== (101011. 0101111)， 
3) 二 进 制 数 转换 成 八进制 数 
二 进 制 数 转换 成 八进制 数 时 ,整数 部 分 从 低位 向 高 位 方向 每 3 位 用 一 个 等 值 的 八进制 
数 来 替换 ,最 后 不 足 3 位 时 在 高 位 补 0 凑 满 3 位 ;小 数 部 分 从 高 位 向 低位 方向 每 3 位 用 一 个 
等 值 的 八进制 数 来 蔡 换 ,最 后 不 足 3 位 时 在 低位 补 0 凑 满 3 位 。 例 如 : 
(0. 10101), = (000. 101 010), = (0. 52)s 
(10011.01), = (010 011.010), = (23. 2)。 
4) 二 进 制 数 转 换 成 十 六 进 制 数 
二 进 制 数 转 换 成 十 六 进 制 数 时 ,整数 部 分 从 低位 向 高 位 方向 每 4 位 用 一 个 等 值 的 十 六 
进 制 数 来 替换 ,最 后 不 足 4 位 时 在 高 位 补 0 凑 满 4 位 ;小 数 部 分 从 高 位 向 低位 方向 每 4 位 用 
一 个 等 值 的 十 六 进 制 数 来 替换 ,最 后 不 足 4 位 时 在 低位 补 0 凑 满 4 位 。 例 如 : 
(11001.11)» = (0001 1001.1100), = (19. Cis 
从 以 上 可 以 看 出 ,二 进 制 数 与 八进制 数 、 二 进 制 数 与 十 六 进 制 数 之 间 有 很 简单 直观 的 对 
应 关系 。 二 进 制 数 太 长 ,书写 、 阅 读 均 不 方便 ;八进制 数 和 十 六 进 制 数 却 像 十 进 制 数 一 样 简 
练 , 易 写 易 记 。 虽 然 计算 机 中 只 使 用 二 进 制 ,但 为 了 开发 和 调试 程序 .阅读 机 器 代码 时 的 方 
便 , 人 们 经 常 使 用 八进制 数 或 十 六 进 制 数 来 等 价 地 表示 二 进 制 数 ,所 以 大 家 也 必须 熟练 掌握 
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八进制 数 和 十 六 进 制 数 的 表示 及 其 与 二 进 制 数 之 间 的 转换 。 
2.1.3 定点 与 浮 点 表示 


日 常生 活 中 所 使 用 的 数 有 整数 和 实数 之 分 ,整数 的 小 数 点 固定 在 数 的 最 右边 ,可 以 省 略 
不 写 ,而 实数 的 小 数 点 则 不 固定 。 计 算 机 中 只 能 表示 0 和 1, 无 法 表示 小 数 点 ,因此 ,要 使 得 
计算 机 能 够 处 理 日 常 使 用 的 数值 数据 ,必须 要 解决 小 数 点 的 表示 问题 。 通 常 计算 机 中 通过 
约定 小 数 点 的 位 置 来 实现 。 小 数 点 位 置 约定 在 固定 位 置 的 数 称 为 定点 数 ,小 数 点 位 置 约定 
为 可 浮动 的 数 称 为 浮 点 数 。 

1. 定点 表示 

定点 表示 法 用 来 对 定点 小 数 和 定点 整数 进行 表示 。 对 于 定点 小 数 ,其 小 数 点 总 是 固定 
在 数 的 最 左边 ,一 般 用 来 表示 浮 点 数 的 尾数 部 分 。 对 于 定点 整数 ,其 小 数 点 总 是 固定 在 数 的 
最 右边 ,因此 可 用 “定点 整数 ”来 表示 整数 。 

2. 浮 点 表示 

对 于 任意 一 个 二 进 制 数 X, 可 以 表示 成 如 下 形式 : 

和 一 (一 1)5XMXRE 

其 中 ,S 取 值 为 0 或 1, 用 来 决定 数 X 的 符号 ;M 是 一 个 二 进 制 定点 小 数 , 称 为 数 X 的 尾数 
(mantissa) ;EE 是 一 个 二 进 制定 点 整数 , 称 为 数 X 的 阶 或 指数 (exponent) ;R 是 基数 (radix， 
base) ,可 以 取 值 为 2.4、16 等 。 在 基数 尺 一 定 的 情况 下 ,尾数 M 的 位 数 反 映 数 X 的 有 效 位 
数 , 它 决 定 了 数 的 表示 精度 ,有 效 位 数 越 多 ,表示 精度 就 越 高 ;指数 下 的 位 数 决定 数 X 的 表 
示范 围 , 其 值 确 定 了 小 数 点 的 位 置 。 

从 浮 点 数 的 形式 来 看 ,绝对 值 最 小 的 非 零 数 是 如 下 形式 的 数 : 0.0…01XR 2 … ,而 绝 
对 值 最 大 的 数 的 形式 应 为 : 0.11…1XR2 ,所 以 ,假设 m 和 nn 分 别 表示 指数 和 尾数 的 位 
数 ,基数 为 2, 则 浮 点 数 X 的 绝对 值 的 范围 为 

2 

上 述 公式 中 , 紧 靠 |X| 左 右 两 边 的 两 个 因子 就 是 非 零 定点 小 数 的 绝对 值 表示 范围 , 浮 点 
数 的 最 小 数 是 定点 小 数 的 最 小 数 2“ 除 以 一 个 很 大 的 数 2” : ,而 浮 点 数 的 最 大 数 则 是 定点 
小 数 的 最 大 数 (1 一 2 ) 乘 以 这 个 大 数 2 ,由 此 可 见 , 浮 点 数 的 表示 范围 比 定点 数 要 大 
得 多 。 


2.1.4 定点 数 的 编码 表示 


定点 / 浮 点 表示 解决 了 小 数 点 的 表示 问题 。 但 是 ,对 于 一 个 数值 数据 来 说 ,还 有 一 个 正 
负 号 的 表示 问题 。 计 算 机 中 只 能 表示 0 和 1, 因 此 , 正 负 号 也 用 0 和 1 来 表示 。 这 种 将 数 的 
符号 用 0 和 1 表示 的 处 理 方式 称 为 符号 数字 化 。 一 般 规定 0 表示 正 号 ,1 表示 负 号 。 

数字 化 了 的 符号 能 否 和 数值 部 分 一 起 参加 运算 呢 ? 为 了 解决 这 个 问题 ,就 产生 了 把 符 
号 位 和 数值 部 分 一 起 进行 编码 的 各 种 方法 。 因 为 任意 一 个 浮 点 数 都 可 以 用 一 个 定点 小 数 和 
一 个 定点 整数 来 表示 ,所 以 ,只 需要 考虑 定点 数 的 编码 表示 。 

定点 数 编码 表示 方法 主要 有 以 下 4 种: 原 码 、 补 码 、 反 码 和 移 码 。 通 常 将 数值 数据 在 计 
算 机 内 部 编码 表示 的 数 称 为 机 器 数 , 而 机 器 数 真 正 的 值 ( 即 现实 世界 中 带 有 正 负 号 的 数 ) 称 
为 机 器 数 的 真 值 。 例 如 ,一 10( 一 1010B) 用 8 位 补 码 表示 为 11110110, 说 明 机 器 数 
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11110110B(F6H 或 0xF6) 的 真 值 是 一 10, 或 者 说 ,一 10 的 机 器 数 是 11110110B(F6H 或 
0xF6) 。 根 据 定 义 可 知 ,机 器 数 一 定 是 一 个 0/1 序列 ,通常 缩写 成 十 六 进 制 形式 。 
假设 机 器 数 X 的 真 值 Xr 为 
Xt 二 土 Xi1X2…XiX。 〈 当 六 为 定点 整数 时 ) 
Xr 二 土 0. 久 1X 2*…X1X。 《当头 为 定点 小 数 时 ) 
对 Xt 用 nn 十 1 位 二 进 制 数 编码 后 ,机 器 数 X 表示 为 
= i Ks 
机 器 数 X 的 位 数 为 n 十 1, 其 中 ,第 一 位 X, 是 数 的 符号 位 ,后 面 n 位 XX,-1…XX! Xo。 是 数 
值 部 分 。 数 值 数据 在 计算 机 内 部 的 编码 问题 ,实际 上 就 是 机 器 数 X 的 各 位 X; 的 取 值 与 真 
值 Xr 的 关系 问题 。 
在 上 述 对 机 器 数 X 和 真 值 Xr 的 假设 条 件 下 ,下 面 介绍 各 种 定点 数 的 编码 表示 。 
1. 原 码 表示 法 
一 个 数 的 原 码 表示 由 符号 位 直接 后 跟 数值 位 构成 ,因此 ,也 称 " 符 号 -数值 ”(sign and 
magnitude) 表 示 法 。 原 码 表示 法 中 , 正 数 和 负数 的 编码 表示 仅 符 号 位 不 同 , 数 值 部 分 完全 
相同 。 
原 码 编码 规则 如 下 : 
(1) 当 Xz 为 正 数 时 ,X, 一 0, 和 一 X( (0<i<n 一 1)。 
(2) 当 Xr 为 负数 时 ,X, 一 1,Xi 一 XI (0<i<<n 一 1)。 
原 码 0 有 两 种 表示 形式 : 





[+ 0]m = 000…0 
[— 0]r = 100…0 

根据 原 码 定义 可 知 ,对 于 真 值 一 10( 一 1010B), 若 用 8 位 原 码 表示 , 则 其 机 器 数 为 
10001010B(8AH 或 0x8A) ;对 于 真 值 一 0.625( 一 0. 101B) , 若 用 8 位 原 码 表示 , 则 其 机 器 数 
为 11010000B(DOH 或 0xD0)。 

原 码 表示 的 优点 是 ,与 真 值 的 对 应 关系 直观 方便 ,因此 与 真 值 的 转换 简单 ,并 且 用 原 码 
实现 乘除 运算 比较 简便 。 其 缺点 是 ,0 的 表示 不 唯一 ,给 使 用 带 来 不 便 。 更 重要 的 是 , 原 码 
加 减 运算 规则 复杂 。 在 进行 原 码 加 减 运算 过 程 中 ,要 判定 是 否 是 两 个 异 号 数 相 加 或 两 个 同 
号 数 相 减 , 若 是 , 则 必须 判定 两 个 数 的 绝对 值 大 小 ,根据 判断 结果 决定 结果 符号 ,并 用 绝对 值 
大 的 数 减 去 绝对 值 小 的 数 。 现 代 计 算 机 中 不 用 原 码 来 表示 整数 ,只 用 定点 原 码 小 数 来 表示 
浮 点 数 的 尾数 部 分 。 

2. 补 码 表示 法 

补 码 表示 可 以 实现 加 减 运算 的 统一 , 即 用 加 法 来 实现 减法 运算 。 补 码 表示 法 也 称 “2- 
补 码 ”(two’”s complement) 表 示 法 ,由 符号 位 后 跟 真 值 的 模 2” 补 码 构 成 。 因 此 在 介绍 补 码 
概念 之 前 , 先 讲 一 下 有 关 模 运算 的 概念 。 

1) 模 运算 

在 模 运算 系统 中 ,车 A,B,M 满足 下 列 关系 : A 二 B 十 KXM (K 为 整数 ) , 则 记 为 : A 三 
BCmod M)。 即 A、B 各 除 以 M 后 的 余数 相同 , 故 称 B 和 A 为 模 M 同 余 。 也 就 是 说 在 一 个 
模 运算 系统 中 ,一 个 数 与 它 除 以 “ 模 ” 后 得 到 的 余数 是 等 价 的 。 

钟表 是 一 个 典型 的 模 运算 系统 ,其 模 数 为 12。 假 定 现在 钟表 时 针 指 向 10 点 ,要 将 它 拨 
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向 6 点 , 则 有 以 下 两 种 拨 法 。 

(1) 倒 拨 4 格 : 10 一 4 一 6。 

(2) 顺 拨 8 格 : 10 十 8 二 18 寺 6 (mod 12) 。 

所 以 在 模 12 系统 中 ,10 一 4 寺 10 十 (12 一 4) 寺 10 十 8 (mod 12) 。 即 : 一 4 二 8 (mod 12) 。 

我 们 称 8 是 一 4 对 模 12 的 补 码 。 同 样 有 一 3 三 9 (mod 12) ;一 5 二 7 (mod 12) 等 。 

由 上 述 例子 与 同 余 的 概念 ,可 得 出 如 下 的 结论 : 对 于 某 一 确定 的 模 , 某 数 A 减 去 小 于 模 
的 另 一 数 B, 可 以 用 A 加 上 一 B 的 补 码 来 代替 。 这 就 是 为 什么 补 码 可 以 借助 加 法 运算 来 实 
现 减 法 运算 的 道理 。 

例 2.10 假定 在 钟表 上 只 能 顺 拨 时 针 , 则 如 何 用 顺 拨 的 方式 实现 将 10 点 倒 拨 4 格 , 拨 
动 后 钟表 上 是 几 点 ? 

解 : 钟表 是 一 个 模 运 算 系 统 , 其 模 为 12。 因 为 10 一 4 圭 10 十 (12 一 4) 寺 10 十 8 圭 6 (mod 
12), 所 以 ,可 从 10 点 顺 拨 8 格 来 实现 倒 拨 4 格 , 最 后 拨 到 6 点。 

例 2.11 假定 算盘 只 有 4 挡 , 且 只 能 做 加 法 , 则 如 何 用 该 算盘 计算 9828 一 1928 的 
结果 ? 

解 : 这 个 算盘 是 一 个 “4 位 十 进 制 数 ? 模 运 算 系 统 ,其 模 为 10' 。 

9828 一 1928 三 9828 十 (104 一 1928) 三 9828 十 8072 三 7900 (mod 104) 

可 用 9828 加 8072( 一 1928 的 补 码 ) 来 实现 9828 减 1928 的 功能 。 

显然 ,在 只 有 4 挡 的 算盘 上 运算 时 ,如 果 运 算 结 果 超 过 4 位 , 则 高 位 无 法 在 算盘 上 表示 ， 
只 能 用 低 4 位 表示 结果 , 留 在 算盘 上 的 值 相当 于 是 除 以 10' 后 的 余数 。 推 广 到 计算 机 内 部 ， 
7 位 运算 部 件 就 相当 于 只 有 挡 的 二 进 制 算 盘 , 其 模 就 是 2"。 

计算 机 中 的 存储 .运算 和 传送 部 件 都 只 有 有 限 位 ,相当 于 有 限 挡 数 的 算盘 ,因此 计算 机 
中 所 表示 的 机 器 数 的 位 数 也 只 有 有 限 位 。 两 个 位 二 进 制 数 在 进行 运算 过 程 中 可 能 会 产生 
一 个 多 于 位 的 数 。 此 时 ,计算 机 和 算盘 一 样 ,也 只 能 舍弃 高 位 而 保留 低位 ,这 样 做 可 能 
会 产生 两 种 结果 。 

(1) 剩 下 的 低 位 数 不 能 正确 表示 运算 结果 , 即 丢掉 的 高 位 是 运算 结果 的 一 部 分 。 例 
如 ,在 两 个 同 号 数 相 加 时 , 当 相 加 得 到 的 和 超出 了 位 数 可 表示 的 范围 时 出 现 这 种 情况 ,我 
们 称 此 时 发 生 了 "溢出 ?Coverflow) 现 象 。 

(2) 剩 下 的 低位 数 能 正确 表示 运算 结果 , 即 高 位 的 舍 去 并 不 影响 其 运算 结果 。 在 两 
个 同 号 数 相 减 或 两 个 异 号 数 相 加 时 ,运算 结果 就 是 这 种 情况 。 舍 去 高 位 的 操作 相当 于 “将 
一 个 多 于 ?位 的 数 去 除 以 2" ,保留 其 余数 作为 结果 ”的 操作 ,也 就 是 模 运 算 操 作 。 

2) 补 码 的 定义 

根据 上 述 同 余 概念 和 数 的 互补 关系 ,可 引出 补 码 表示 方法 : 正 数 的 补 码 是 它 本 身 ; 负 数 
的 补 码 等 于 模 与 该 负数 绝对 值 之 差 。 因 此 , 数 Xr 的 补 码 可 用 如 下 公式 表示 。 

(1) 当 Xr 为 正 数 时 ,[Xrj]# 二 Xr 一 MT 十 XTr (mod MD) 。 

(2) 当 Xr 为 负数 时 ,[Xr]# 一 M 一 |Xr| 王 MXr (mod MD) 。 

综合 (1) 和 (2) ,得 到 以 下 结论 : 对 于 任意 一 个 数 Xt ,[Xr]# 二 M 十 Xr (mod MD) 。 

对 于 具有 一 位 符号 位 和 nn 一 1 位 数值 位 的 位 二 进 制 整 数 的 补 码 来 说 ,其 补 码 定 义 
如 下 : 























[LXdy 2 md (2 
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3) 特殊 数据 的 补 码 表示 

通过 以 下 例子 来 说 明 几 个 特殊 数据 的 补 码 表示 。 

例 2.12 分 别 求 出 补 码 的 位 数 为 nxn 和 十 1 时 一 2 的 补 码 表示 。 
解 : 当 补 码 的 位 数 为 n 位 时 ,其 模 为 2"。 




















[一 2]# = 2 27 = 2 = 10…0(n 一 1 个 0) (mod 2") 
当 补 码 的 位 数 为 n 十 1 位 时 ,其 模 为 2 。 
[一 2 = 2 一 27 = 2 二 2 二 110…0(n 一 1 个 0) (mod 2"1) 


从 该 例 可 以 看 出 ,同一 个 真 值 在 不 同位 数 的 补 码 表示 中 ,其 对 应 的 机 器 数 不 同 。 因 此 ， 
在 给 定编 码 表示 时 ,一 定 要 明确 编码 的 位 数 。 在 机 器 内 部 ,编码 的 位 数 就 是 机 器 中 运算 部 件 
的 位 数 。 
例 2.13 设 补 码 的 位 数 为 n, 求 一 1 的 补 码 表示 。 
解 : 根据 补 码 定义 ,有 
[—1]#= 2 一 1=11…1 (2 个 1) 
例 2.14 求 0 的 补 码 表示 。 
解 : 根据 补 码 定 义 , 有 
[十 0], = [—0j]% = 2" 士 0= 100…0 一 00…0 (mod 2") 
从 上 述 结果 可 知 , 补 码 0 的 表示 是 唯一 的 。 这 带 来 了 以 下 两 个 方面 的 好 处 : 
(1) 减少 了 十 0 和 一 0 之 间 的 转换 。 
(2) 少 占 用 一 个 编码 表示 ,使 补 码 比 原 码 能 多 表示 一 个 最 小 负数 。 在 n 位 原 码 定点 数 
中 ,100…0 用 来 表示 一 0, 但 在 位 补 码 表示 中 ,一 0 和 十 0 都 用 00…0 表示 ,所 以 可 用 100…0 
来 表示 最 小 负 整 数 一 2"! 。 
最 后 考察 一 下 nn 位 正 整 数 2"”!' 的 补 码 。 
对 于 位 补 码 来 说 ,2"”' 的 补 码 为 多 少 呢 ?根据 补 码 定 义 , 有 
[2 一 ] = 2"+2"!(mod 2") = 2 一 一 10…0 
最 高 位 为 1, 说 明 对 应 的 真 值 应 该 是 负数 ,而 这 与 实际 情况 不 符 , 显 然 n 位 补 码 无 法 表 
示 2”'。 由 此 可 以 知道 ,为 什么 在 ?位 补 码 定义 中 , 真 值 的 取 值 范围 包含 了 一 2” ,但 不 包 
六 
4) 补 码 与 真 值 之 间 的 转换 方法 
原 码 与 真 值 之 间 的 对 应 关系 简单 ,只 要 对 符号 转换 ,数值 部 分 不 需 改 变 。 但 对 于 补 码 来 
说 , 正 数 和 负数 的 转换 不 同 。 根 据 定义 , 求 一 个 正 数 的 补 码 时 ,只 要 将 正 号 转换 为 0 ,数值 部 
分 无 须 改 变 ; 求 一 个 负数 的 补 码 时 ,需要 做 减法 运算 ,因而 不 太 方便 和 直观 。 
例 2.15 设 补 码 的 位 数 为 8, 求 1101100 和 一 1101100 的 补 码 表示 。 
解 : 补 码 的 位 数 为 8, 说 明 补 码 数值 部 分 有 7 位 , 故 
[1101100]# = 2 十 1101100 = 100000000 十 1101100 = 01101100 (mod 28) 
[一 1101100] = 2 一 1101100 = 100000000 一 1101100 
10000000 十 10000000 一 1101100 
10000000 十 (1111111 一 1101100) 十 1 
一 10000000 十 0010011 十 1 = 10010100 (mod 2s) 
本 例 中 是 两 个 绝对 值 相 同 .符号 相反 的 数 。 其 中 ,负数 的 补 码 计算 过 程 中 第 一 个 10000000 














发 据 的 所 可 级 表示 


用 于 产生 最 后 的 符号 1, 第 二 个 10000000 拆 为 1111111 十 1, 而 1111111 一 1101100 实际 是 将 
真 值 1101100 各 位 取 反 。 模 仿 这 个 计算 过 程 ,不 难 从 补 码 的 定义 推导 出 负数 补 码 计算 的 一 
般 步 又 为 : 符号 位 为 1, 对 真 值 部 分 “各 位 取 反 ,未 位 加 1”。 

因此 ,可 以 用 以 下 简单 方法 求 一 个 数 的 补 码 : 对 于 正 数 ,符号 位 取 0, 其 余 同 真 值 中 相应 
各 位 ;对 于 负数 ,符号 位 取 1, 其 余 各 位 由 真 值 “各 位 取 反 , 末 位 加 1” 得 到 。 

例 2.16 假定 补 码 位 数 为 8, 用 简便 方法 求 数 一 1100011 的 补 码 表示 。 

解 : [一 1100011]# 王 10011100 十 00000001 王 10011101 

反 过 来 由 补 码 求 真 值 的 简便 方法 为 : 若 符号 位 为 0, 则 真 值 的 符号 为 正 ,其 数值 部 分 不 
变 ; 若 符号 位 为 1, 则 真 值 的 符号 为 负 , 其 数值 部 分 的 各 位 由 补 码 “各 位 取 反 ,未 位 加 1” 得 到 。 

例 2.17 已 知 LXr]# 王 1 0110100, 求 真 值 Xr 。 

解 : Xr 一 一 (1001011 十 1) 一 一 1001100 

根据 上 述 有 关 补 码 和 真 值 转换 规则 ,不 难 发 现 , 根 据 补 码 [Xr]# 求 [一 Xr]h 的 方法 是 ， 
对 [LXrJih"“ 各 位 取 反 , 末 位 加 1”。 这 里 要 注意 最 小 负数 取 负 后 会 发 生 溢出 。 即 最 小 负数 取 
负 后 的 补 码 表 示 是 不 存在 的 。 

例 2.18 已 知 LXr] 一 10110100, 求 [一 Xr]h 。 

解 : [一 Xr]# 一 01001011 十 00000001 王 01001100 

例 2.19 已 知 [LXr]# 王 10000000, 求 [一 Xr]h 。 

解 : [一 Xrj# 二 01111111 十 00000001 二 10000000 〈 结 果 溢 出 ) 

例 2.19 中 出 现 了 “两 个 正 数 相 加 ,结果 为 负数 ”的 情况 ,因此 ,结果 是 一 个 错误 的 值 ,这 
种 情况 称 为 结果 “溢出 ”, 该 例 中 ,8 位 整数 补 码 10000000 对 应 的 是 最 小 负数 一 2 ,对 其 取 负 
后 的 值 为 2 ( 即 128) ,而 8 位 整数 补 码 能 表示 的 最 大 正 数 为 2 一 1 二 127, 因 而 数 128 太 大 ， 
无 法 用 8 位 补 码 表示 ,结果 溢出 。 

3. 反 码 表示 法 

负数 的 补 码 可 采用 "各 位 求 反 , 示 位 加 1? 的 方法 得 到 ,如 果 仅 各 位 求 反 而 末尾 不 加 1, 那 
么 就 可 得 到 负数 的 反 码 表示 ,因此 负数 反 码 的 定义 就 是 在 相应 的 补 码 表示 中 再 末 位 减 1 。 

反 码 表示 存在 以 下 几 个 方面 的 不 足 : 0 的 表示 不 唯一 ; 表 数 范围 比 补 码 少 一 个 最 小 负 
数 ; 运 算 时 必须 考虑 循环 进位 。 因 此 , 反 码 在 计算 机 中 很 少 被 使 用 ,有 时 用 作 数 码 变 换 的 中 
间 表 示 形 式 。 

4. 移 码 表示 法 

用 浮 点 数 表示 一 个 数值 数据 时 ,实际 上 是 用 两 个 定点 数 来 表示 的 。 用 一 个 定点 小 数 表 
示 浮 点 数 的 尾数 ,用 另 一 个 定点 整数 表示 浮 点 数 的 指数 ( 阶 ) 。 一 般 情 况 下 , 浮 点 数 的 指数 都 
用 一 种 称 为 “ 移 码 ”的 编码 方式 表示 。 

为 避免 混淆 ,本 教材 将 指数 ( 阶 ) 的 移 码 表示 称 为 阶 码 ,因此 , 阶 (指数 ) 指 的 是 真 值 ,而 阶 
码 指 的 是 机 器 数 , 它 是 一 个 0/1 序列 。 为 什么 要 用 移 码 表示 指数 呢 ? 因为 指数 可 以 是 正 数 ， 
也 可 以 是 负数 , 当 进 行 浮 点 数 的 加 减 运算 时 ,必须 先 “ 对 阶 ”( 即 比较 两 个 数 的 阶 的 大 小 并 使 
之 相等 )。 为 简化 比较 操作 ,使 操作 过 程 不 涉及 指数 的 符号 ,可 以 对 每 个 指数 都 加 上 一 个 正 
的 常数 , 称 为 偏 置 常数 (bias) ,使 所 有 指数 都 转换 为 正 整数 ,这 样 , 在 对 浮 点 数 的 指数 进行 比 
较 时 ,就 是 对 两 个 正 整数 进行 比较 ,因而 可 以 直观 地 将 两 个 数 按 位 从 左 到 右 进 行 比 对 ,简化 
了 “对 阶 ” 操 作 。 

移 码 的 定义 如 下 。 
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设 巨 为 指数 ,其 移 码 表示 位 数 为 n, 则 [Ej$ 二 2"! 十 E (这 里 2 为 偏 置 常数 ) 。 

移 码 主要 用 来 表示 浮 点 数 的 指数 ,因此 , 移 码 只 用 来 表示 定点 整数 。 对 于 位移 码 
[Ej ,可 以 得 到 如 下 几 个 结论 。 

(DEE 的 范围 为 一 2"!E&2"! 一 1; 

(2) 移 码 0 的 真 值 为 一 2"!。 即 [一 2”!]$ 二 00*…0。 

(3) 零 的 移 码 表示 是 唯一 的 。 即 : [十 0]$ 二 [一 0]$ 二 2”! 二 10…0 (n 一 1 个 0)。 

(4) 若 将 移 码 第 一 位 看 成 符号 位 , 则 同一 个 真 值 的 移 码 和 补 码 仅 符号 位 不 同 。 这 一 点 
不 难 从 补 码 和 移 码 的 定义 中 看 出 : 两 者 相差 2 : ,因而 符号 位 相反 。 


2.2 整数 的 表示 


整数 的 小 数 点 隐 含 在 数 的 最 右边 , 故 无 须 表示 小 数 点 ,因而 整数 也 被 称 为 定点 数 。 计 算 
机 中 处 理 的 整数 可 以 用 二 进 制 表示 ,也 可 以 用 二 进 制 编 码 的 十 进 制 数 (BCD 码 ) 表 示 。 二 进 
制 整数 分 为 无 符号 整数 (unsigned integer) 和 带 符号 整数 (signed integer) 两 种 。 


2.2.1 无 符号 整数 的 表示 


当 一 个 编码 的 所 有 二 进位 都 用 来 表示 数值 而 没有 符号 位 时 ,该 编码 表示 的 就 是 无 符号 
整数 。 此 时 ,默认 数 的 符号 为 正 ,所 以 无 符号 整数 就 是 正 整 数 或 非 负 整数 。 

一 般 在 全 部 是 正 数 运算 且 不 出 现 负 值 结果 的 场合 下 ,使 用 无 符号 整数 表示 。 例 如 ,可 用 
无 符号 整数 进行 地 址 运算 ,或 用 来 表示 指针 。 通 常 把 无 符号 整数 简单 地 说 成 无 符号 数 。 

由 于 无 符号 整数 省 略 了 一 位 符号 位 ,所 以 在 字 长 相同 的 情况 下 , 它 能 表示 的 最 大 数 比 带 
符号 整数 所 能 表示 的 大 ,位 无 符号 整数 可 表示 的 数 的 范围 为 0 一 (2 一 1) 。 例 如 ,8 位 无 符 
号 整数 的 形式 为 00000000B~11111111B, 对 应 的 数 的 取 值 范围 为 0 一 (2 一 1) , 即 最 大 数 为 
255 ,而 8 位 带 符号 整数 的 最 大 数 是 127 。 


2.2.2 带 符 号 整数 的 表示 


带 符号 整数 也 称 为 有 符号 整数 , 它 必须 用 一 个 二 进位 来 表示 符号 ,虽然 前 面 介绍 的 各 种 
二 进 制定 点 数 编码 表示 (包括 原 码 、 补 码 、 反 码 和 移 码 ) 都 可 以 用 来 表示 带 符号 整数 ,但 是 补 
码 表示 有 其 突出 的 优点 ,主要 体现 在 以 下 几 方 面 。 

(1) 与 原 码 和 反 码 相 比 , 数 0 的 补 码 表示 形式 唯一 。 

(2) 与 原 码 和 移 码 相 比 , 补 码 运算 系统 是 一 种 模 运 算 系 统 ,因而 可 用 加 法 实现 减法 运 
算 , 且 符号 位 可 以 和 数值 位 一 起 参加 运算 。 

(3) 与 原 码 和 反 码 相 比 , 补 码 比 原 码 和 反 码 多 表示 一 个 最 小 负数 。 

(4) 与 反 码 相 比 , 补 码 不 需要 通过 循环 进位 来 调整 结果 。 

现代 计算 机 中 带 符号 整数 都 用 补 码 表示 , 故 n 位 带 符号 整数 可 表示 的 数值 范围 为 
一 2 全 一 (2 一 1)。 例 如 ,8 位 带 符号 整数 的 表示 范围 为 一 128 一 十 127 。 


2.2.3 C 语言 中 的 整数 类 型 
C 语言 支持 多 种 整数 类 型 。 无 符号 整数 在 C 语言 中 对 应 unsigned short unsigned int 














发 据 的 机 可 级 表示 


(unsigned) unsigned long 等 类 型 , 常 在 数 的 后 面 加 一 个 au 或 U 来 表示 ,例如 12345U、 
0x2B3Cu 等 ; 带 符号 整数 在 C 语言 中 对 应 short\int long 等 类 型 。C 语言 中 允许 无 符号 整 
数 和 带 符号 整数 之 间 的 转换 ,转换 后 数 的 真 值 是 将 原 二 进 制 机 器 数 按 转换 后 的 数据 类 型 重 
新 解释 得 到 。 例 如 ,考虑 以 下 C 代码 


1 int x=-1; 

2 unsigned u=2147483648; 

3 

4 printf("x=%u=%d\n", x, x); 
5 printf("u=%u=%d\n:, u, u); 


上 述 C 代码 中 ,z 为 带 符号 整数 ,x 为 无 符号 整数 , 初 值 为 2 147 483 648( 即 22 )。 函 数 
printf 用 来 输出 数值 ,指示 符 %u、%d 分 别 用 来 以 无 符号 整数 和 带 符号 整数 的 形式 输出 十 进 
制 数 的 值 。 当 在 一 个 32 位 机 器 上 运行 上 述 代码 时 , 它 的 输出 结果 如 下 : 


x=4 294 967 295=-1 
u=2 147 483 648=-2147 483 648 


Z 的 输出 结果 说 明 如 下 : 因为 一 1 的 补 码 表 示 为 11…1, 所 以 当 作 为 32 位 无 符号 数 来 
解释 (格式 符 为 %u) 时 ,其 值 为 2 一 1 二 4 294 967 296 一 1 二 4 294 967 295。 

& 的 输出 结果 说 明 如 下 : 23 的 无 符号 数 表示 为 100…0, 当 这 个 数 被 解释 为 32 位 带 符号 
整数 (格式 符 为 %d) 时 ,其 值 为 最 小 负数 : 一 2**-! 二 一 22 = 二 一 2 147 483 648( 参 见 例 2. 12) 。 

在 C 语言 中 ,如 果 执 行 一 个 运算 时 同时 有 无 符号 数 和 带 符号 整数 参加 ,那么 ,C 编译 器 
会 隐 含 地 将 带 符号 整数 强制 类 型 转换 为 无 符号 数 ,因而 会 带 来 一 些 意 想不到 的 结果 。 

表 2. 2 给 出 了 一 些 关系 表达 式 及 其 在 32 位 补 码 表示 机 器 上 的 运算 结果 ,1 表示 结果 为 
真 ,0 表示 结果 为 假 , 其 中 标 有 * 的 结果 与 直觉 不 符 , 表 中 最 后 一 列 给 出 了 相应 的 说 明 。 可 
以 看 出 ,对 于 同样 的 0/1 序列 ,用 不 同类 型 进行 解释 时 的 值 不 同 。 因 为 直觉 上 的 取 值 与 计算 
机 中 实际 取 值 有 差异 ,因而 ,有 时 实际 结果 与 直觉 不 相符 ,请 注意 带 x 的 结果 说 明 。 


表 2.2 32 位 补 码 表 示 机 器 上 整数 转换 示例 


关系 表达 式 运算 类 型 | 结果 说 明 





一 2147483648 一 一 2147483648U 无 符号 | 1” | 10…0B (23) 一 10…0B (2*) 

一 2147483648 一 一 2147483647 带 符号 1 10.…0B (—23)<10:…01B (一 231 十 1) 
一 2147483647 一 1 一 2147483647U 无 符号 0* | 10…0B (23)>01:…1B (23 一 1) 

一 2147483647 一 1<2147483647 带 符号 | 1 | 10.…0B (一 2a) 一 01.…1B (2a 一 1) 
(unsigned) 一 2147483648 一 一 2147483647 无 符号 1 10.…0B (23 ) 一 10.…01B (23 十 1) 
Cunsigned) 一 2147483648 一 2147483647 无 符号 0* | 10.…0B (23 ) 之 01.…1B (23 一 1) 





注 : 第 2 行 关系 表达 式 在 ISO C90 标准 下 按 无 符号 整数 类 型 进行 比较 。 


表 中 第 1 行 关 系 表达 式 中 王 一 左边 的 一 2147483648 用 补 码 表示 为 10…0 ,与 三 一 右边 
的 机 器 数 10…0 相同 ,因而 比较 结果 为 1。 这样 ,两 个 看 似 不 等 的 数 在 计算 机 内 部 结果 是 相 
等 的 。 第 3 行 和 第 6 行 也 出 现 了 类 似 情况 ,由 此 可 见 , 当 带 符号 整数 被 解释 为 无 符号 数 时 ， 
可 能 会 发 生意 想不到 的 结果 。 
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2.3 实数 的 表示 


计算 机 内 部 进行 数据 存储 运算 和 传送 的 部 件 位 数 有 限 , 因 而 用 定点 数 表示 数值 数据 
时 ,其 表示 范围 很 小 。 对 于 位 带 符号 整数 ,其 表示 范围 为 一 2 一 (2 一 1) ,运算 结果 很 
容易 溢出 ,此 外 ,用 定点 数 也 无 法 表示 大 量 带 有 小 数 点 的 实数 。 因 此 ,计算 机 中 专门 用 浮 点 


2.3.1 浮 点 数 的 表示 格式 


对 于 任意 一 个 实数 X ,可 以 表示 为 
X 一 (一 1D)sXMXRE 

其 中 ,S 取 值 为 0 或 1, 用 来 决定 数 X 的 符号 ,一般 用 0 表示 正 ,1 表示 负 ;M 是 一 个 二 进 制 
定点 小 数 , 称 为 数 X 的 尾数 ;E 是 一 个 二 进 制定 点 整数 , 称 为 数 X 的 阶 或 指数 ;R 是 基数 ,可 
以 约定 为 2、4、16 等 。 要 确定 一 个 实数 的 值 , 只 要 在 默认 基数 R 下 ,确定 数 符 S、 尾 数 
M 和 指数 下 就 可 以 了 。 因 此 , 浮 点 数 格式 只 需 规 定 SJM 和 各自 所 用 的 位 数 、 编 码 方式 和 
所 在 的 位 置 ,而 基数 RR 与 定点 数 的 小 数 点 位 置 一 样 ,是 默认 的 ,不 需要 明显 地 表示 出 来 。 一 
般 尾 数 用 定点 原 码 小 数 表示 ,指数 用 移 码 表示 。 

在 IEEE 754 浮 点 数 标准 被 广泛 使 用 之 前 ,不 同 的 计算 机 所 用 的 浮 点 数 表示 格式 各 不 
相同 。 例 如 ,IBM 370 的 32 位 短 浮 点 数 格式 如 下 : 

0 1 78 31 
数 符 | 阶 码 尾数 

其 中 ,第 0 位 为 数 符 5; 第 1~7 位 为 7 位移 码 表示 的 阶 码 E( 偏 置 常数 为 64); 第 8 一 
31 位 为 6 位 十 六 进 制 原 码 小 数 表示 的 尾数 M。 基 数 尺 为 16, 所 以 阶 码 变 化 1 等 于 尾数 移动 
4 位 。 

例 2.20 将 十 进 制 数 65798 转换 为 IBM 370 的 32 位 短 浮 点 数 格式 。 

解 : 因为 (65798)1 二 (10106)1 一 (0.101060)is X 165 ,所 以 , 数 符 S==0, 阶 码 EE= 
(64 十 5)io 一 69) 一 〈100 0101),。 

故 用 该 浮 点 数 形式 表示 如 下 : 








| 0 | 1000101 | 0001 0000 0001 0000 0110 0000 














用 十 六 进 制 表示 为 45 10 10 60H。 
例 2.21 将 十 进 制 数 65798 转换 为 下 述 32 位 浮 点 数 格式 。 


0 1 89 31 
数 符 | 阶 码 尾数 


其 中 ,第 0 位 为 数 符 S; 第 1 一 8 位 为 8 位 移 码 表示 的 阶 码 E( 偏 置 常数 为 128) ;第 9 一 
31 位 为 24 位 二 进 制 原 码 小 数 表 示 的 尾数 。 基 数 为 2, 规 格 化 尾数 形式 为 土 0. 156…6, 其 中 
第 一 位 1 不 显 式 地 表示 出 来 ,这 样 可 用 23 个 数位 表示 24 位 尾数 。 




















数据 的 所 可 级 表示 


解 : 因为 (65798)io 一 (1 0000 0001 0000 0110), 二 (0. 1000 0000 1000 0011 0), X27 ， 
所 以 , 数 符 S=0, 阶 码 E= (128 十 17)wo 二 (145)w 二 (1001 0001)，。 
故 用 该 浮 点 数 形式 表示 为 





| 0 [oo 1000 1| 000 0000 1000 0011 0000 0000 





用 十 六 进 制 表 示 为 48 80 83 00H。 

上 述 格式 的 规格 化 浮 点 数 的 表示 范围 如 下 。 

正 数 最 大 值 : 0.11…1X20 一 (1 一 2-*) X222 。 

正 数 最 小 值 : 0. 10…0X 2%… 一 (1/2) X23== 2-129 。 

因为 原 码 是 关于 原点 对 称 的 , 故 该 浮 点 格式 的 范围 是 关于 原点 对 称 的 ,如 图 2. 2 所 示 。 


可 表示 的 负数 轨 


可 表示 的 正 数 
负 上 洲 负 下 溢 | 正 下 溢 | 正 上 洲 
-(1-224)X2127 _2-1029 0 2-D9 (1-224)X2127 数 条 


图 2.2 浮 点 数 的 表示 范围 

















在 图 2. 2 中 , 数 轴 上 有 4 个 区 间 的 数 不 能 用 浮 点 数 表示 。 这 些 区 间 称 为 溢出 区 ,接近 
0 的 区 间 为 下 滋 区 ,向 无 穷 大 方向 延伸 的 区 间 为 上 溢 区 。 

根据 浮 点 数 的 表示 格式 ,只 要 尾数 为 0, 指 数 为 任何 值 其 值 都 为 0, 这 样 的 数 被 称 为 机 器 
零 , 因 此 机 器 零 不 唯一 。 通 常用 阶 码 和 尾数 同时 为 0 来 唯一 表示 机 器 零 。 即 当 结果 出 现 尾 
数 为 0 时 ,不 管 阶 码 是 什么 ,都 将 阶 码 取 为 0。 也 有 的 计算 机 将 下 溢 区 (指数 过 小 ?的 数 近似 
成 机 器 零 。 机 器 零 有 十 0 和 一 0 之 分 。 


2.3.2 考点 数 的 规格 化 


浮 点 数 尾数 的 位 数 决 定 浮 点 数 的 有 效 数位 ,有 效 数位 越 多 ,数据 的 精度 越 高 。 为 了 在 浮 
点 数 运算 过 程 中 尽 可 能 多 地 保留 有 效 数字 的 位 数 , 使 有 效 数字 尽量 占 满 尾 数 数位 ,必须 在 运 
算 过 程 中 对 浮 点 数 进行 “规格 化 ”操作 。 对 浮 点 数 的 尾数 进行 规格 化 ,除了 能 得 到 尽量 多 的 
有 效 数 位 以 外 ,还 可 以 使 浮 点 数 的 表示 具有 唯一 性 。 

从 理论 上 来 讲 , 规 格 化 数 的 标志 是 真 值 的 尾数 部 分 中 最 高 位 具有 非 零 数字 。 也 就 是 说 ， 
若 基数 为 R, 则 规格 化 数 的 标志 是 ,尾数 部 分 真 值 的 绝对 值 大 于 等 于 1/R。 若 浮 点 数 的 基数 
为 2, 则 尾数 规格 化 的 浮 点 数 形式 应 为 士 0.120…20X25( 这 里 2 是 0 或 1)。 

规格 化 操作 有 两 种 :“ 左 规 ”" 和 “ 右 规 ”"。 当 有 效 数 位 进 到 小 数 点 前 面 时 ,需要 进行 右 规 。 
右 规 时 ,尾数 每 右 移 一 位 , 阶 码 加 1, 直 到 尾数 变 成 规格 化 形式 为 止 , 右 规 时 指数 会 增加 , 因 
此 有 可 能 溢出 ; 当 出 现形 如 士 0.0…06bb…bX2” 的 运算 结果 时 ,需要 进行 左 规 , 左 规 时 ,尾数 
每 左 移 一 位 , 阶 码 减 1, 直 到 尾数 变 成 规格 化 形式 为 止 。 


2.3.3 JEEE 754 浮 点 数 标 准 


直到 20 世纪 80 年 代 初 , 浮 点 数 表示 格式 还 没有 统一 标准 ,不 同 厂商 计算 机 内 部 浮 点 数 
表示 格式 不 同 , 在 不 同 结构 的 计算 机 之 间 进 行 数据 传送 或 程序 移植 时 ,必须 进行 数据 格式 的 
转换 ,而 且 , 数 据 格式 转换 还 会 带 来 运算 结果 的 不 一 致 。 因 而 ,20 世纪 70 年 代 后 期 ,IEEE 
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成 立 委员 会 着 手 制定 浮 点 数 标准 ,1985 年 完成 了 浮 点 数 标准 IEEE 754 的 制定 。 其 主要 起 
草 者 是 加 州 大 学 伯克利 分 校 数学 系 教授 William Kahan, 他 帮助 Intel 公司 设计 了 8087 浮 点 
处 理 器 (FPU) ,并 以 此 为 基础 形成 了 IEEE 754 标准 ,Kahan 教授 也 因此 获得 了 1987 年 的 
图 灵 奖 。 

目前 几乎 所 有 计算 机 都 采用 IEEE 754 标准 表示 浮 点 数 。 在 这 个 标准 中 ,提供 了 两 种 
基本 浮 点 格式 : 32 位 单 精度 和 64 位 双 精 度 格式 ,如 图 2. 3 所 示 。 
1 位 8 位 23 位 
符号 | 阶 码 尾数 
(a) 32 位 单 精度 格式 














1 位 11 位 52 位 
符号 阶 码 尾数 
(b) 64 位 双 精 度 格式 
图 2.3 IEEE 754 浮 点 数 格式 




















32 位 单 精度 格式 中 包含 1 位 符号 ;、8 位 阶 码 e 和 23 位 尾数 f;64 位 双 精 度 格式 包含 
1 位 符号 s、11 位 阶 码 e 和 52 位 尾数 ff。 其 基数 隐 含 为 2; 尾 数 用 原 码 表示 ,第 一 位 总 为 1， 
因而 可 在 尾数 中 省 略 第 一 位 的 1, 称 为 隐藏 位 ,使 得 单 精 度 格式 的 23 位 尾数 实际 上 表示 了 
24 位 有 效 数 字 , 双 精度 格式 的 52 位 尾数 实际 上 表示 了 53 位 有 效 数 字 。IEEE 754 规定 隐藏 
位 1 的 位 置 在 小 数 点 之 前 。 

IEEE 754 标准 格式 中 ,指数 用 移 码 表示 , 偏 置 常数 并 不 是 通常 n 位 移 码 所 用 的 2 ,而 
是 2 一 1, 因 此 , 单 精度 和 双 精 度 浮 点 数 的 偏 置 常数 分 别 为 127 和 1023。IEEE 754 的 这 种 
“尾数 带 一 个 隐藏 位 , 偏 置 常数 用 2 一 一 1 的 做 法 ,不仅 没 有 改变 传统 做 法 的 计算 结果 ,而且 
带 来 以 下 两 个 好 处 : 

(1) 尾数 可 表示 的 位 数 多 一 位 ,因而 使 浮 点 数 的 精度 更 高 。 

(2) 指数 的 可 表示 范围 更 大 ,因而 使 浮 点 数 范围 更 大 。 

对 于 IEEE 754 标准 格式 的 数 ,一 些 特殊 的 位 序列 (如 阶 码 为 全 0 或 全 1) 有 其 特别 的 解 
释 。 表 2.3 给 出 了 对 各 种 形式 的 数 的 解释 。 


表 2.3 IEEE 754 浮 点 数 的 解释 















































单 精度 (32 位 ) 双 精 度 (64 位 ) 
值 的 类 型 

符号 阶 码 尾数 值 符号 阶 码 尾数 值 
正 零 0 0 0 0 0 0 0 0 
负 堆 1 0 0 一 0 1 0 0 —0 
正 无 穷 大 人 .| 55( 全 下 | co 0 | 2047( 全 1) | 0 co 
负 无 穷 大 和 255( 全 1) 0 一 co 1 | 2047( 全 1) | 0 一 co 
无 定义 数 0 或 1| 255( 全 1) | 天 0 NaN 0 或 1| 2047( 全 1) | 0 NaN 
规格 化 非 零 正 数 0 0<e<255 | 0 0~=e<=2047 tl 


数据 的 所 可 级 表示 




















续 表 
单 精度 (32 位 ) 双 精 度 (64 位 ) 
值 的 类 型 
符号 阶 码 尾数 值 符号 阶 码 尾数 值 
规格 化 非 零 负数 1 | 0<e<255 | fF |=2wN| 1 |0<e<2047 | Ff | 一 2 5221. 万 
非 规格 化 正 数 0 0 天 0 | 2 及 0 0 | 0 办 
非 规格 化 负数 1 0 fz¥0|—2-*(0.N)| 1 0 f¥0|—2-"*00, f) 




















在 表 2.3 中 ,对 IEEE 754 中 规定 的 数 进行 了 以 下 分 类 。 

1. 全 0 阶 码 全 0 尾数 : 十 0/ 一 0 

IEEE 754 的 零 有 两 种 表示 : 十 0 和 一 0。 零 的 符号 取决 于 数 符 ;s。 一 般 情况 下 十 0 和 
一 0 是 等 效 的 。 

2. 全 0 阶 码 非 0 尾数 : 非 规格 化 数 

非 规 格 化 数 的 特点 是 阶 码 为 全 0, 尾 数 高 位 有 一 个 或 几 个 连续 的 0, 但 不 全 为 0。 因 此 
非 规 格 化 数 的 隐藏 位 为 0, 并 且 单 精度 和 双 精 度 浮 点 数 的 指数 分 别 为 一 126 或 一 1022 , 故 数 
值 分 别 为 (一 1)*X0.f X2- 坟 和 (一 1)*X0. X21。 

非 规格 化 数 可 用 于 处 理 阶 码 下 溢 , 使 得 出 现 比 最 小 规格 化 数 还 小 的 数 时 程序 也 能 继续 
进行 下 去 。 

图 2.4 表示 了 加 入 非 规格 化 数 后 IEEE 754 的 表 数 范围 的 变化 。 图 中 将 可 表示 数 以 
[2" ,2 ] 的 区 间 分 组 。 区 间 [2" ,2 ] 内 所 有 数 的 指数 相同 ,都 为 ”而 尾数 部 分 的 变化 范围 
为 1.00…0 一 1. 11…1, 这 里 小 数 点 前 的 1 是 隐藏 的 隐 含 位 。 对 于 32 位 单 精 度 规格 化 数 , 因 
为 尾数 的 位 数 有 23 位 , 故 每 个 区 间 内 的 数 的 个 数 相同 ,都 是 2” 个 。 例 如 ,在 正 数 范围 内 最 
左边 的 区 间 为 [2 ,2 2 区] ,在 该 区 间 内 ,最 小 规格 化 数 为 1. 00…0X2 天 ,最 大 规格 化 数 为 
1.11…1X2- 2。 在 该 区 间 中 的 各 个 相 邻 数 之 间 具有 等 距 性 ,其 距离 为 2 “”X2 ”, 该 区 间 
右边 相 邻 的 区 间 为 [2 天 ,2 - 玫 ], 区 间 内 各 相 邻 数 间 的 距离 为 2 一 X2 天。 由 此 可 见 ,每 个 
右边 区 间 内 相 邻 数 间 的 距离 总 比 左边 一 个 区 间 的 相 邻 数 距 离 大 一 倍 , 因 此 离 原点 越 近 的 区 
间 内 的 数 的 间隙 越 小 。 图 2.4(a) 给 出 了 未 定义 非 规格 化 数 的 32 位 单 精 度 浮 点 数 的 情况 。 
在 图 中 可 看 出 ,在 0 和 最 小 规格 化 数 2 - 莽 之 间 有 一 个 间隙 未 被 利用 。 定 义 了 非 规格 化 数 
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0 2-126 2-125 2-124 2-123 
(a) 32 位 规格 化 数 的 密度 


0.0…0X2-26-0.1…1X2-24 





一 -上 一 上- 二 一 上 一 一 | 一 上 -一 | 一 -一 
0 2-126 2-125 2-124 2-123 
(b) 32 位 非 规格 化 数 的 密度 


2.4 IEEE 754 中 加 入 非 规格 化 数 后 表 数 范围 的 变化 
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后 ,在 0 和 2 “之 间 就 增加 了 2” 个 附加 数 ,这 些 相 邻 附 加 数 之 间 与 区 间 [2””*,2 至 ] 内 的 
相 邻 数 等 距 。 附 加 的 2” 个 数 为 非 规格 化 数 , 所 有 这 些 数据 具有 与 区 间 [2 '”,2“'”] 内 的 数 
相同 的 指数 , 即 最 小 指数 (一 126)。 尾 数 部 分 的 变化 范围 为 0.00…0 一 0.11…1。 这 里 的 隐 
含 位 为 0, 这 也 是 非 规格 化 数 的 重要 标志 之 一 。 

3. 全 1 阶 码 全 0 尾数 : 十 co/ 一 co 

引入 无 穷 大 数 使 得 在 计算 过 程 出 现 异常 的 情况 下 程序 能 继续 进行 下 去 ,并 且 可 为 
程序 提供 错误 检测 功能 。 十 cc 在 数值 上 大 于 所 有 有 限 数 ,一 c 则 小 于 所 有 有 限 数 ,无 
穷 大 数 既 可 作为 操作 数 ,也 可 能 是 运算 的 结果 。 当 操作 数 为 无 穷 大 时 ,系统 可 以 有 两 
种 处 理 方式 。 

(1) 产生 不 发 信号 的 非 数 NaN。 如 十 co 十 (一 ce) ,十 ce 一 (十 co) ,co/co 等 。 

(2) 产生 明确 的 结果 。 如 5 十 (十 co)= 十 co, (十 ce) 十 (十 ce) 王 十 co,5 一 (十 co) 

co0,( 一 00) 一 (十 oo)= 一 oo 等 。 

4. 全 1 阶 码 非 0 尾数 : NaN 

NaN(Not a Number) 表 示 一 个 没有 定义 的 数 , 称 为 非 数 。 分 为 不 发 信号 (quiet) 和 发 信 
号 (signaling) 两 种 非 数 。 有 的 书 中 把 它们 分 别称 为 “静止 的 NaN” 和 “通知 的 NaN”。 表 2. 4 
给 出 了 能 产生 不 发 信号 (静止 的 )NaN 的 计算 操作 。 


表 2.4 产生 不 发 信号 NaN 的 操作 















































运算 类 型 产生 不 发 信号 NaN 的 计算 操作 
所 有 对 通知 NaN 的 任何 计算 操作 
无 穷 大 相 减 : 
(十 ce) 十 (一 co) 
加 减 (十 co) 一 (十 co) 
(一 ce) 十 (十 ce) 
(一 co) 一 (一 co) 
乘 0Xeco 
除 0/0 或 ce/co 
求 余 zzMOD0 或 cc MODy 
平方 根 Vz 且 z<0 





引入 NaN 的 目的 是 为 了 检测 非 初 始 化 值 的 使 用 。 程 序 员 或 编译 程序 可 用 非 数 表示 每 
个 变量 的 非 初 始 化 值 。 引 入 NaN 还 可 以 使 计算 出 现 异常 时 程序 能 继续 进行 下 去 ,让 程序 员 
将 测试 或 判断 延迟 到 方便 的 时 候 进 行 。 可 用 尾数 取 值 的 不 同 来 区 分 是 “不 发 信号 NaN” 还 
是 “发 信号 NaN”。 当 最 高 有 效 位 为 1 时 ,为 不 发 信号 (静止 的 ) NaN , 当 结果 产生 这 种 非 数 
时 ,不 发 “异常 ”通知 , 即 不 进行 异常 处 理 ; 当 最 高 有 效 位 为 0 时 为 发 信号 (通知 的 )NaN , 当 结 
果 产 生 这 种 非 数 时 , 则 发 一 个 异常 操作 通知 ,表示 要 进行 异常 处 理 。 因 为 NaN 的 尾数 是 非 
0 数 ,除了 第 一 位 有 定义 外 其 余 的 位 没有 定义 ,所 以 可 用 其 余 位 来 指定 具体 的 异常 条 件 。 一 
些 没有 数学 解释 的 计算 (如 0/0,0X ce 等) 会 产生 一 个 NaN。 


5. 阶 码 非 全 0 且 非 全 1: 规格 化 非 0 数 
对 于 阶 码 范围 在 1 一 254( 单 精度 ) 和 1 一 2046〈 双 精度 ) 的 数 ,是 一 个 正常 的 规格 化 非 0 
数 。 根 据 IEEE 754 的 定义 ,这 种 数 的 指数 的 范围 应 该 是 一 126 一 十 127( 单 精度 ) 和 一 1022 
一 十 1023( 双 精度 ) ,其 值 的 计算 公式 分 别 为 


(—D:x1.fxX2 和 CC— DX 1 fxX 2 


发 据 的 所 可 级 表示 


例 2.22 将 十 进 制 数 一 0. 75 转换 为 IEEE 754 的 单 精度 浮 点 数 格式 表示 。 











解 : (一 0.75)1o 


0. 11)， 











0.100…0，e 一 (127 


〈126)io 


0000…0000 000 ,用 十 六 进 制 表 示 为 BF 40 00 00H。 
例 2.23 求 IEEE 754 单 精度 浮 点 数 CO A0 00 00H 的 值 是 多 少 。 
解 : 求 一 个 机 器 数 的 真 值 ,就 是 将 该 数 转换 为 十 进 制 数 。 首 先 将 C0 A0 00 00H 展开 为 
一 个 32 位 单 精度 浮 点 数 : 1 10000001 010 0000…0000。 据 IEEE 754 单 精度 浮 点 数 格式 可 





知 ,符号 ;三 1, 尾数 一 (0.01)， 





1.1), X27!= (一 1D)X1.FX2 一 2 ,所 以 s=1, f= 
(0111 1110)， ,规格 化 浮 点 数 表 示 为 1 0111 1110 1000 


(0.25)w , 阶 码 e 二 (10000001), 二 (129)w ,所 以 ,其 值 为 


(=1y Xl fF X22 = (DX1 2X2 "= 一 125 又 2 三 一 90。 


IEEE 754 标准 的 单 精度 和 双 精 度 格式 的 特征 参数 见 表 2. 5。 


参 数 


表 2.5 


IEEE 754 浮 点 数 格式 参数 
单 精度 浮 点 数 


双 精 度 浮 点 数 





字 宽 (位 数 ) 

阶 码 宽度 (位 数 ) 
阶 码 偏 置 常数 
最 大 指数 

最 小 指数 

尾数 宽度 
阶 码 个 数 
尾数 个 数 

值 的 个 数 

数 的 量 级 范围 





1. 98X 23 
10-3 ~ 10+38 





64 

11 
1023 
1023 

一 1022 

52 
2046 

252 

1. 99X 2 
0 Ot 


IEEE 754 用 全 0 阶 码 和 全 1 阶 码 表示 一 些 特殊 值 , 如 0.=c 和 NaN ,因此 ,除去 全 0 和 

全 1 阶 码 后 , 单 精度 和 双 精 度 格式 的 阶 码 个 数 分 别 为 254 和 2046, 最 大 指数 分 别 为 127 和 
1023。 单 精度 规格 化 数 的 个 数 为 254 X 2” 二 1. 98 X23 , 双 精 度 规格 化 数 的 个 数 为 2046 X 
“二 1.99X2”。 根 据 单 精 度 和 双 精 度 格式 的 最 大 指数 分 别 为 127 和 1023, 可 以 得 出 数 的 
量 级 范围 分 别 为 10 ”~107* 和 10 ”一 10133。 
IEEE 754 除了 对 上 述 单 精度 和 双 精 度 浮 点 数 格式 进行 了 具体 的 规定 以 外 ,还 对 单 精度 
扩展 和 双 精 度 扩展 两 种 格式 的 最 小 长 度 和 最 小 精度 进行 了 规定 。 例 如 ,IEEE 754 规定 , 双 
精度 扩展 格式 必须 至 少 具 有 64 位 有 效 数 字 ,并 总 共 占 用 至 少 79 位 ,但 没有 规定 其 具体 的 格 
式 , 处 理 器 厂商 可 以 选择 符合 该 规定 的 格式 。 
例如 ,Intel x87 FPU 采用 80 位 双 精 度 扩展 格式 ,包含 4 个 字段 : 1 位 符号 位 s、15 位 阶 

码 e( 偏 置 常数 为 16 383) 、1 位 显 式 首位 有 效 位 (explicit leading significand bit)7 和 63 位 尾 
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数 f。Intel x87 FPU 采 用 的 这 种 扩展 浮 点 数 格式 与 IEEE 754 规定 的 单 精度 和 双 精 度 浮 点 
数 格式 的 一 个 重要 的 区 别 是 , 它 没有 隐藏 位 ,有 效 位 数 共 64 位 。Intel 安 腾 FPU 采用 82 位 
扩展 精度 。 

又 如 ,SPARC 和 PowerPC 处 理 器 中 采用 128 位 扩展 双 精 度 浮 点 数 格式 ,包含 1 位 符号 
位 s、15 位 阶 码 e( 偏 置 常数 为 16383) 和 112 位 尾数 f, 采 用 隐藏 位 ,所 以 有 效 位 数 为 113 位 。 


2.3.4 C 语言 中 的 浮 点 数 类 型 


C 语言 中 有 float 和 double 两 种 不 同 浮 点 数 类 型 ,分别 对 应 IEEE 754 单 精度 浮 点 数 格 
式 和 双 精 度 浮 点 数 格式 ,相应 的 十 进 制 有 效 数 字 位 数 分别 为 7 位 和 17 位 。 

Ci 语言 对 于 扩展 双 精 度 的 相应 类 型 是 long double, 但 是 long double 的 长 度 和 格式 随 编 
译 器 和 处 理 器 类 型 的 不 同 而 有 所 不 同 。 例 如 ,Microsoft Visual C++ 6.0 版 本 以 下 的 编译 
器 都 不 支持 该 类 型 ,因此 ,用 其 编译 出 来 的 目标 代码 中 long double 和 double 一 样 ,都 是 64 
位 双 精 度 ; 在 IA-32 上 使 用 gcc 编译 器 时 ,long double 类 型 数据 采用 2. 3. 3 节 中 所 述 的 
Intel x87 FPU 的 80 位 双 精 度 扩 展 格式 表示 ;在 SPARC 和 PowerPC 处 理 器 上 使 用 gcc 编 
译 器 时 ,long double 类 型 数据 采用 2. 3. 3 节 中 所 述 的 128 位 双 精 度 扩展 格式 表示 。 

当 在 int ,float 和 double 等 类 型 数据 之 间 进 行 强制 类 型 转换 时 ,程序 将 得 到 以 下 数值 转 
换 结果 (假定 int 为 32 位 )。 

(1) 从 int 转换 为 float 时 ,不 会 发 生 溢 出 ,但 可 能 有 数据 被 伟人 。 

(2) 从 int 或 float 转换 为 double 时 ,因为 double 的 有 效 位 数 更 多 , 故 能 保留 精确 值 。 

(3) 从 double 转换 为 float 时 ,因为 float 表示 范围 更 小 , 故 可 能 发 生 溢出 ,此 外 ,由 于 有 
效 位 数 变 少 , 故 可 能 被 伟人 。 

(4) 从 float 或 double 转换 为 int 时 ,因为 int 没有 小 数 部 分 ,所 以 数据 可 能 会 向 0 方向 
被 截断 。 例 如 ,1. 9999 被 转换 为 1, 一 1. 9999 被 转换 为 一 1。 此 外 ,因为 int 的 表示 范围 更 
小 , 故 可 能 发 生 溢出 。 将 大 的 浮 点 数 转换 为 整数 可 能 会 导致 程序 错误 ,这 在 历史 上 曾经 有 过 
惨痛 的 教训 。 

1996 年 6 月 4 日 ,Ariana 5 火箭 初次 航行 ,在 发 射 仅仅 37s 后 ,偏离 了 飞行 路 线 ,然后 解 
体 爆 炸 , 火 箭 上 载 有 价值 5 亿美 元 的 通信 卫星 。 根 据 调 查 发 现 ,原因 是 由 于 控制 惯性 导航 系 
统 的 计算 机 向 控制 引擎 喷嘴 的 计算 机 发 送 了 一 个 无 效 数据 。 它 没有 发 送 飞 行 控制 信息 ,而 
是 发 送 了 一 个 异常 诊断 位 模式 数据 ,表明 在 将 一 个 64 位 浮 点 数 转换 为 16 位 带 符号 整数 时 
产生 了 溢出 异常 。 溢 出 的 值 是 火箭 的 水 平 速率 ,这 上 比 原来 的 Ariana 4 火箭 所 能 达到 的 速率 
高 出 了 5 倍 。 在 设计 Ariana 4 火箭 软件 时 ,设计 者 确认 水 平 速率 决 不 会 超出 一 个 16 位 的 整 
数 ,但 在 设计 Ariana 5 时 ,他 们 没有 重新 检查 这 部 分 ,而 是 直接 使 用 了 原来 的 设计 。 

在 不 同 数据 类 型 之 间 转 换 时 ,往往 隐藏 着 一 些 不 容易 被 察觉 的 错误 ,这 种 错误 有 时 会 带 
来 重大 损失 ,因此 ,编程 时 要 非常 小 心 。 

例 2.24 假定 变量 id 的 类 型 分 别 是 int、float 和 double, 它 们 可 以 取 除 十 ce 、 一 co 
和 NaN 以 外 的 任意 值 。 请 判断 下 列 每 个 C 语言 关系 表达 式 在 32 位 机 器 上 运行 时 是 否 
永 真 。 

A. i== (int) (float) i 

B. f== (float) (int) f 


发 据 的 机 可 级 表示 


. i==(int) (double) i 

{== (float) (double) f 
一 一 (float) d 
王 一 一 《一 必 

.(d 二 f) 一 d= 二 = 


不 是 。int 精度 比 float 高 , 当 i 转换 为 float 后 再 到 int 时 ,有 效 位 数 可 能 丢失 。 
不 是 。float 有 小 数 部 分 , 当 f 转换 为 int 后 再 到 float 时 ,小 数 部 分 可 能 会 丢失 。 
是 。double 比 int 有 更 大 的 精度 和 范围 , 当 i 转换 为 double 后 再 到 int 时 数值 不 变 。 
是 。double 比 float 有 更 大 的 精度 和 范围 , 当 f 转 为 double 后 再 到 float 时 数值 


Dnm> 入 THOn 


E. 不 是 。double 比 float 有 更 大 的 精度 和 范围 , 当 4 转换 为 float 后 数值 可 能 改变 。 

F. 是 。 浮 点 数 取 负 就 是 简单 将 数 符 取 反 。 

G. 不 是 。 例 如 , 当 d==1.79X10”、f==1.0 时 ,左边 为 0( 因 为 d 十 f 时 f 需 向 d 对 阶 ， 
对 阶 后 f 的 尾数 有 效 数 位 被 舍 去 而 变 为 0, 故 4d 十 f 仍然 等 于 4 ,再 减 去 d 后 结果 为 0) ,而 右 
边 为 1。 


2.4 十 进 制 数 的 表示 


人 们 日 常 使 用 和 熟悉 的 是 十 进 制 ,使 用 计算 机 来 处 理 数据 时 ,在 计算 机 外 部 (如 键盘 输 
入 屏幕 显示 或 打印 输出 ) 看 到 的 数据 基本 上 是 十 进 制 形式 ,因此 ,有 时 需要 计算 机 内 部 能 够 
表示 和 处 理 十 进 制 数 据 ,以 方便 直接 进行 十 进 制 数 的 输入 输出 或 直接 用 十 进 制 数 进行 计算 。 

在 计算 机 内 部 ,可 以 采用 数字 0 一 9 对 应 的 ASCII 码 字符 来 表示 十 进 制 数 ,也 可 以 采用 
二 进 制 编码 的 十 进 制 数 (BCD) 来 表示 十 进 制 数 。 


*2.4.1 用 ASCII 码 字符 表示 


为 方便 十 进 制 数 输入 输出 (如 打印 或 显示 ) ,可 以 把 十 进 制 数 看 成 字符 串 ,直接 用 ASCII 
码 表示 ,0 一 9 分 别 对 应 30H ~~39H。 这 种 表示 方式 下 ,一 位 十 进 制 数 对 应 8 位 二 进 制 数 。 
一 个 十 进 制 数 在 计算 机 内 部 需 占 用 多 个 连续 字 节 ,因此 ,在 存 取 一 个 十 进 制 数 时 ,必须 说 明 
该 十 进 制 数 在 内 存 的 起 始 地 址 和 字 节 个 数 。 

根据 不 同 的 数 符 表示 方式 ,可 以 分 为 前 分 隔 数 字 串 和 后 嵌入 数字 串 两 种 格式 。 前 分 隔 
数字 串 方式 是 : 将 符号 位 单独 用 一 个 字 节 来 表示 ,位 于 数字 串 之 前 。 正 号 用 字符 “十 ”的 
ASCII 码 (2BH) 表 示 ; 负 号 用 字符 “一 ”的 ASCII 码 (2DH) 表 示 。 例 如 ,十进制 数 十 236 表示 
为 0010 1011 0011 0010 0011 0011 0011 0110B(2B 32 33 36H), 在 内 存 中 占用 4 个 字 节 。 
后 嵌入 数字 串 方 式 为 : 符号 位 不 单独 用 一 个 字 节 来 表示 ,而 是 戏 人 到 最 低 一 位 数字 的 
ASCII 码 中 。 正 数 的 最 低 一 位 数字 编码 不 变 ; 负 数 的 最 低 一 位 数字 编码 的 高 4 位 由 原来 的 
0011 变 为 0111。 例 如 ,十 进 制 数 一 236 表示 为 0011 0010 0011 0011 0111 0110B(32 33 
76H) ,在 内 存 中 占用 3 个 字 节 。 

用 ASCII 码 字符 串 方 式 来 表示 十 进 制 数 ,方便 了 十 进 制 数 的 输入 输出 ,但 是 ,由 于 这 种 
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表示 形式 中 含有 非 数 值 信息 (高 4 位 编码 ), 所 以 对 十 进 制 数 的 运算 很 不 方便 。 如 果 要 对 这 
种 形式 的 十 进 制 数 进 行 计 算 , 则 必须 先 转换 为 二 进 制 数 或 用 BCD 码 表示 十 进 制 数 。 


“2.4.2 用 BCD 码 表示 


这 种 十 进 制 数 用 二 进 制 编码 的 形式 ,通过 专门 的 十 进 制 数 运算 指令 进行 处 理 。 计 算 机 
中 可 有 专门 的 逻辑 线路 在 BCD 码 运算 时 使 每 4 位 二 进 制 数 按 十 进 制 进行 处 理 。 

每 位 十 进 制 数 的 取 值 可 以 是 0 一 9 这 10 个 数 之 一 ,因此 ,每 一 个 十 进 制 数位 必须 至 少 由 
4 位 二 进 制 位 来 表示 。 而 4 位 二 进 制 位 可 以 组 合成 16 种 状态 ,去 掉 10 种 状态 后 还 有 6 种 
宛 余 状态 ,所 以 从 16 种 状态 中 选取 10 种 状态 来 表示 十 进 制 数位 0 一 9 的 方法 很 多 ,可 以 产 
生 多 种 BCD 码 。 

1. 有 权 BCD 码 

十 进 制 有 权 码 是 指 表示 每 个 十 进 制 数位 的 4 个 二 进 制 数位 ( 称 为 基 2 码 ) 都 有 一 个 确定 
的 权 。 最 常用 的 一 种 编码 就 是 8421 码 , 它 选取 4 位 二 进 制 数 按 计数 顺序 的 前 10 个 代码 与 
十 进 制 数字 相对 应 ,每 位 的 权 从 左 到 右 分 别 为 8.4、2、1, 因 此 称 为 8421 码 , 也 称 自然 BCD 
码 , 记 为 NBCD 码 。 

2. 无 权 BCD 码 

十 进 制 无 权 码 是 指 表示 每 个 十 进 制 数位 的 4 个 基 2 码 没 有 确定 的 权 。 在 无 权 码 方案 
中 ,用 得 较 多 的 是 余 3 码 和 格雷 码 。 

一 个 十 进 制 数 用 多 个 对 应 的 BCD 码 组 合 表示 ,每 个 数字 对 应 4 位 BCD 码 ,两 个 数字 占 
一 个 字 节 , 数 符 可 用 1 位 二 进 制 表 示 ,1 表示 负数 ,0 表示 正 数 ;也 可 用 4 位 二 进 制 表 示 , 并 放 
在 数字 串 最 后 ,通常 用 1100 表示 正 号 ,用 1101 表示 负 号 。 例 如 ,Pentium 处 理 器 中 的 十 进 
制 数 占 80 位 ,第 一 个 字 节 中 的 最 高 位 为 符号 位 ,后 面 的 9 个 字 节 可 表示 18 位 十 进 制 数 。 


2.5 非 数值 数据 的 编码 表示 


逻辑 值 .字符 等 数据 都 是 非 数 值 数 据 ,在 机 器 内 部 它们 也 用 二 进 制 表 示 。 下 面 分 别 介绍 
这 些 非 数值 数据 的 编码 表示 。 


2.5.1 逮 辑 值 


正常 情况 下 ,每 个 字 或 其 他 可 寻 址 单位 ( 字 节 、 半 字 等 ) 是 作为 一 个 整体 数据 单元 看 待 
的 。 但 是 , 某 些 时 候 还 需要 将 一 个 位 数据 看 成 由 7 个 1 位 数据 组 成 ,每 个 取 值 为 0 或 1。 
例如 ,有 时 需要 存储 一 个 布尔 或 二 进 制 数据 阵列 ,阵列 中 的 每 项 只 能 取 值 为 1 或 0; 有 了 时 可 
能 需要 提取 一 个 数据 项 中 的 某 位 进行 诸如 “ 置 位 ”或 “ 清 零 ”等 操作 。 当 数据 以 这 种 方式 看 待 
时 ,就 被 认为 是 逻辑 数据 。 因 此 n 位 二 进 制 数 可 表示 个 逻辑 值 。 人 逻辑 数据 只 能 参加 逻辑 
运算 ,并 且 是 按 位 进行 的 ,如 按 位 "与 ” 按 位 "或 ”逻辑 左 移 、 逻 辑 右 移 等 。 

逻辑 数据 和 数值 数据 都 是 一 串 0/1 序列 ,在 形式 上 无 任何 差异 ,需要 通过 指令 的 操作 码 
类 型 来 识别 它们 。 例 如 ,逻辑 运算 指令 处 理 的 是 逻辑 数据 ,算术 运算 指令 处 理 的 是 数值 
数据 。 





发 据 的 所 可 级 表示 


*2.5.2 西 文字 符 


西 文 由 拉丁 字母 数字、 标点 符号 及 一 些 特殊 符号 所 组 成 ,它们 统称 为 字符 (character) 。 
所 有 字符 的 集合 叫做 字符 集 。 字 符 不 能 直接 在 计算 机 内 部 进行 处 理 , 因 而 也 必须 对 其 进行 
数字 化 编码 ,字符 集中 每 一 个 字符 都 有 一 个 代码 ( 即 二 进 制 编码 的 0/1 序列 ) ,构成 了 该 字符 
集 的 代码 表 , 简 称 码 表 。 码 表 中 的 代码 具有 唯一 性 。 

字符 主要 用 于 外 部 设备 和 计算 机 之 间 交 换 信 息 。 一 旦 确定 了 所 使 用 的 字符 集 和 编码 方 
法 后 ,计算 机 内 部 所 表示 的 二 进 制 代码 和 外 部 设备 输入 .打印 和 显示 的 字符 之 间 就 有 唯一 的 
对 应 关系 。 

字符 集 有 多 种 ,每 个 字符 集 的 编码 方法 也 多 种 多 样 。 目 前 计算 机 中 使 用 最 广泛 的 西 文 
字符 集 及 其 编码 是 ASCII 码 , 即 美国 标准 信息 交换 码 (American Standard Code for 
Information Interchange) ,ASCII 字符 编码 见 表 2. 6。 


表 2.6 ASCII 码 表 


















































3 久生 | 000 001 010 011 100 101 110 111 
0000 NUL | DLE SP 0 @ P p 
0001 SOH | pcl ! 1 A Q a q 
0010 STX | Dc2 " 2 B R b r 
0011 ETX | Dc3 # 3 G S e 
0100 EOT | pc4 $ 4 D 到 d t 
0101 ENQ | NAK % 5 E U 并 
0110 ACK | SYN & 6 F V f 
0111 BEL | ETB ， 7 CG W g 
1000 BS CAN ( 8 H x h 未 
1001 HT EM ) 9 I Y i y 
1010 LF SUB x J > 有 
1011 VT ESC 十 K [ k { 
1100 FF FS < L KK 1 | 
1101 CR GS = = M ] i ) 
1110 SO RS > N ~ 
1111 SI US / ? O _ o DEL 


























从 表 2.6 中 可 看 出 ,每 个 字符 都 由 7 个 二 进位 b6bsb45;bzb1bo 表示 ,其 中 bsbsb 是 高 位 
部 分 ,635s6b1b。 是 低位 部 分 。 一 个 字符 在 计算 机 中 实际 上 是 用 8 位 表示 的 。 一 般 情 况 下 ,最 
高 一 位 6 为 0。 在 需要 奇偶 校 验 时 ,这 一 位 可 用 于 存放 奇偶 校 验 值 , 此 时 称 这 一 位 为 奇偶 校 
验 位 。7 个 二 进位 566s615;5615。 从 0000000 到 1111111 共 表 示 128 种 编码 ,可 用 来 表示 
128 个 不 同 的 字符 ,其 中 包括 10 个 数字 、26 个 小 写字 母 .26 个 大 写字 母 . 算 术 运 算 符 、 标 点 
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符号 、 商 业 符号 等 。 表 中 共有 95 个 可 打印 (或 显示 ) 字 符 和 33 个 控制 字符 。 这 95 个 可 打印 
(或 显示 ) 字 符 在 计算 机 键盘 上 能 找到 相应 的 键 ,按键 后 就 可 将 对 应 字符 的 二 进 制 编码 送 入 
计算 机 内 。 从 表 2. 6 中 可 看 出 ASCII 字符 编码 有 两 个 规律 。 

(1) 字符 0~9 这 10 个 数字 字符 的 高 3 位 编码 为 011, 低 4 位 分 别 为 0000 一 1001。 当 去 
掉 高 3 位 时 , 低 4 位 正好 是 0~9 这 10 个 数字 的 8421 码 。 这 样 既 满足 了 正常 的 排序 关系 ， 
又 有 利于 实现 ASCII 码 与 十 进 制 数 之 间 的 转换 。 

(2) 英文 字母 字符 的 编码 值 也 满足 正常 的 字母 排序 关系 ,而 且 大 、 小 写字 母 的 编码 之 间 
有 简单 的 对 应 关系 ,差别 仅 在 b; 这 一 位 上 ,车 这 一 位 为 0, 则 是 大 写字 母 ; 若 为 1, 则 是 小 写 
字母 。 这 使 得 大 ,小 写字 母 之 间 的 转换 非常 方便 。 

*2.5.3 汉字 字符 

西 文 是 一 种 拼音 文字 ,用 有 限 的 几 个 字母 可 以 拼写 出 所 有 单词 。 因 此 西 文中 仅 需 要 对 
有 限 个 少量 的 字母 和 一 些 数学 符号 ,标点 符号 等 辅助 字符 进行 编码 ,所 有 西 文字 符 集 的 字符 
总 数 不 超 过 256 个 ,所 以 使 用 7 个 或 8 个 二 进位 就 可 表示 。 中 文 信息 的 基本 组 成 单位 是 汉 
字 , 汉 字 也 是 字符 。 但 汉字 是 表意 文字 ,一 个 字 就 是 一 个 方块 图 形 。 计 算 机 要 对 汉字 信息 进 
行 处 理 ,就 必须 对 汉字 本 身 进行 编码 ,但 汉字 的 总 数 超过 6 万 字 ,数量 巨大 ,给 汉字 在 计算 机 
内 部 的 表示 、 汉 字 的 传输 与 交换 .汉字 的 输入 和 输出 等 带 来 了 一 系列 问题 。 为 了 适应 汉字 系 
统 各 组 成 部 分 对 汉字 信息 处 理 的 不 同 需要 ,汉字 系统 必须 处 理 以 下 几 种 汉字 代码 : 输入 码 、 
内 码 .字模 点 阵 码 。 

1. 汉字 的 输入 码 

由 于 计算 机 最 早 是 由 西方 国家 研制 开发 的 ,最 重要 的 信息 输入 工具 一 一 键盘 是 面向 西 
文 设计 的 ,一 个 或 两 个 西 文字 符 对 应 着 一 个 按键 ,非常 方便 。 但 汉字 是 大 字符 集 , 专 门 的 汉 
字 输 入 键盘 由 于 键 多 、 查 找 不 便 、 成 本 高 等 原因 而 几乎 无 法 采用 。 目 前 来 说 ,最 简便 .最 广泛 
采用 的 汉字 输入 方法 是 利用 英文 键盘 输入 汉字 。 由 于 汉字 字数 多 ,无 法 使 每 个 汉字 与 西 文 
键盘 上 的 一 个 键 相对 应 ,因此 必须 使 每 个 汉字 用 一 个 或 几 个 键 来 表示 ,这 种 对 每 个 汉字 用 相 
应 的 按键 进行 的 编码 表示 就 称 为 汉字 的 输入 码 ,又 称 外 码 。 因 此 汉字 的 输入 码 的 码 元 ( 即 组 
成 编码 的 基本 元 素 ) 是 西 文 键盘 中 的 某 个 按键 。 

2. 字符 集 与 汉字 内 码 

汉字 被 输入 到 计算 机 内 部 后 ,就 按照 一 种 称 为 内 码 的 编码 形式 在 系统 中 进行 存储 、 查 
找 、 传 送 等 处 理 。 对 于 西 文字 符 , 它 的 内 码 就 是 ASCII 码 。 对 于 汉字 内 码 的 选择 ,必须 考虑 
以 下 几 个 因素 : 

(1) 不 能 有 二 义 性 , 即 不 能 和 ASCII 码 有 相同 的 编码 。 

(2) 要 与 汉字 在 字库 中 的 位 置 有 关系 ,以 便于 汉字 的 处 理 、 查 找 。 

(3) 编码 应 尽量 短 。 

为 了 适应 计算 机 处 理 汉字 信息 的 需要 ,1981 年 我 国 颁布 了 《信息 交换 用 汉字 编码 字符 
集 ， 基 本 集 》(GB 2312 一 1980)。 该 标准 选 出 6763 个 常用 汉字 ,为 每 个 汉字 规定 了 标准 代 
码 , 以 供 汉字 信息 在 不 同 计算 机 系统 之 间 交 换 使 用 。 这 个 标准 称 为 国标 码 ,又 称 国标 交 
换 码 。 

GB 2312 国标 字符 集 由 3 部 分 组 成 : 第 一 部 分 是 字母 .数字 和 各 种 符号 ,包括 英文 、 俄 


发 据 的 机 可 级 表示 


文 . 日 文平 假名 与 片 假名 .罗马 字母 、. 汉 语 拼 音 等 共 687 个 ;第 二 部 分 为 一 级 常用 汉字 , 共 
3755 个 , 按 汉语 拼音 排列 ;第 三 部 分 为 二 级 常用 字 , 共 3008 个 ,因为 不 太 常用 ,所 以 按 偏旁 
部 首 排列 。 

GB 2312 国标 字符 集中 为 每 个 字符 (汉字 或 其 他 字符 ) 规 定 了 一 个 唯一 的 二 进 制 代码 。 
码 表 由 94 行 (十 进 制 编号 0 一 93 行 )、94 列 ( 十 进 制 编号 0 一 93 列 ) 组 成 , 行 号 称 为 区 号 , 列 
号 称 为 位 号 。 每 一 个 汉字 或 符号 在 码 表 中 都 有 各 自 的 位 置 ,因此 各 有 一 个 唯一 的 位 置 编码 ， 
该 编码 用 字符 所 在 的 区 号 及 位 号 的 二 进 制 代码 表示 ,7 位 区 号 在 左 ,7 位 位 号 在 右 , 共 14 位 ， 
这 14 位 代码 就 叫 汉字 的 区 位 码 。 因 此 区 位 码 指出 了 汉字 在 码 表 中 的 位 置 。 

汉字 的 区 位 码 并 不 是 其 国标 码 ( 即 国标 交换 码 )。 由 于 信息 传输 的 原因 ,每 个 汉字 的 区 
号 和 位 号 必须 各 自 加 上 32( 即 16 进 制 的 20H) ,这样 区 号 和 位 号 各 自 加 上 32 后 的 相应 的 二 
进 制 代码 才 是 它 的 国标 码 , 因 此 在 国标 码 中 区 号 和 位 号 还 是 各 自 占 7 位 。 在 计算 机 内 部 ,为 
了 处 理 与 存储 的 方便 ,汉字 国标 码 的 前 后 各 7 位 分 别 用 一 个 字 节 来 表示 ,所 以 共 需 两 个 字 节 
才能 表示 一 个 汉字 。 因 为 计算 机 中 的 中 西 文 信息 是 混合 在 一 起 进行 处 理 的 ,所 以 汉字 信息 
如 不 予以 特别 的 标识 , 它 与 单字 节 的 ASCII 码 就 会 混淆 不 清 ,无 法 识别 。 这 就 是 前 面 给 出 
的 第 一 个 要 考虑 的 因素 。 为 了 解决 这 个 问题 ,采用 的 方法 之 一 ,就 是 使 表示 汉字 的 两 个 字 节 
的 最 高 位 (0 ) 总 等 于 1。 这 种 双 字 节 (16 位 ) 的 汉字 编码 就 是 其 中 的 一 种 汉字 机 内 码 ( 即 汉 
字 内 码 )。 例 如 ,汉字 “大 ”的 区 号 是 20, 位 号 是 83, 因 此 区 位 码 为 14 53H(0001 0100 0101 
0011B) ,国标 码 为 34 73H(0011 0100 0111 0011B) ,前 面 的 34 H 和 字符 “4” 的 ASCII 码 相 
同 ,后 面 的 73H 和 字符 “s” 的 ASCII 码 相同 ,将 每 个 字 节 的 最 高 位 各 设 为 1 后 ,就 得 到 其 机 
内 码 B4 F3 H (1011 0100 1111 0011B) 。 这 样 就 不 会 和 ASCII 码 混淆 了 。 应 当 注 意 ,汉字 
的 区 位 码 和 国标 码 是 唯一 的 \ 标 准 的 ,而 汉字 内 码 可 能 随 系统 的 不 同 而 有 差别 。 

随 着 亚洲 地 区 计算 机 应 用 的 普及 与 深入 ,汉字 字符 集 及 其 编码 还 在 发 展 。 国 际 标准 
ISO/VIEC 10646 提出 了 一 种 包括 全 世界 现代 书面 语言 文字 所 使 用 的 所 有 字符 的 标准 编码 ， 
每 个 字符 用 4 个 字 节 ( 称 为 UCS-4) 或 2 个 字 节 ( 称 为 UCS-2) 来 编码 。 我 国 ( 包 括 香 港 、 台 湾 
地 区 ) 与 日 本 .韩国 联合 制订 了 一 个 统一 的 “中 日 韩 统一 表意 文字 ?字符 集 (CJK 编码 ) , 共 收 
集 了 上 述 不 同 国家 和 地 区 的 共 约 2 万 多 汉字 及 符号 ,采用 2 字 节 ( 即 UCS-2) 编 码 , 现 已 被 批 
准 为 国家 标准 (GB 13000)。 美 国 微软 公司 在 Windows 操作 系统 (中 文 版 ) 中 也 已 采用 了 中 
西 文 统一 编码 ,其 中 收集 了 中 .日 、 韩 三 国 常 用 的 约 2 万 汉字 , 称 为 Unicode(2 字 节 编码 ), 它 
与 ISO/IEC 10646 的 UCS-2 编码 一 致 。 

汉字 输入 码 与 汉字 内 码 \ 汉 字 交 换 码 完 全 是 不 同 范畴 的 概念 ,不 能 把 它们 混淆 起 来 。 使 
用 不 同 的 输入 编码 方法 输入 同一 个 汉字 时 ,在 计算 机 内 部 得 到 的 汉字 内 码 是 一 样 的 。 

3. 汉字 的 字模 点 阵 码 和 轮廓 描述 

经 过 计算 机 处 理 后 的 汉字 ,如果 需要 在 屏幕 上 显示 出 来 或 用 打印 机 打印 出 来 , 则 必须 把 
汉字 机 内 码 转换 成 人 们 可 以 阅读 的 方块 字形 式 。 

每 一 个 汉字 的 字形 都 必须 预先 存放 在 计算 机 内 ,一 套 汉字 (例如 GB 2312 国标 汉字 字 
符 集 ) 的 所 有 字符 的 形状 描述 信息 集合 在 一 起 称 为 字形 信息 库 , 简 称 字 库 (font)。 不 同 的 字 
体 (如 宋体 、 仿 宋 、 楷 体 、 黑 体 等 ) 对 应 不 同 的 字库 。 在 输出 每 一 个 汉字 时 ,计算 机 都 要 先 到 字 
库 中 去 找到 它 的 字形 描述 信息 ,然后 把 字形 信息 送 到 相应 的 设备 输出 。 

汉字 的 字形 主要 有 两 种 描述 方法 : 字模 点 阵 描述 和 轮廓 描述 。 字 模 点 阵 描述 是 将 字库 
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中 的 各 个 汉字 或 其 他 字符 的 字形 ( 即 字模 ) 用 一 个 其 元 素 由 0 和 1 组 成 的 方 阵 ( 如 16X16、 
24X24、32X32 甚至 更 大 ) 来 表示 ,汉字 或 字符 中 有 黑 点 的 地 方 用 1 表示 ,空白 处 用 0 表示 ， 
这 种 用 来 描述 汉字 字模 的 二 进 制 点 阵 数据 称 为 汉字 的 字模 点 阵 码 。 汉 字 的 轮廓 描述 方法 比 
较 复杂 , 它 把 汉字 笔画 的 轮廓 用 一 组 直线 和 曲线 来 勾画 , 记 下 每 一 直线 和 曲线 的 数学 描述 公 
式 。 目 前 已 有 两 类 国际 标准 : Adobe Typel 和 TrueType。 这 种 用 轮廓 线 描述 字形 的 方式 
精度 高 ,字形 大 小 可 以 任意 变化 。 


2.6 数据 的 宽度 和 存储 


2.6.1 数据 的 宽度 和 单位 


计算 机 内 部 任何 信息 都 被 表示 成 二 进 制 编码 形式 。 二进制 数据 的 每 一 位 (0 或 1) 是 组 
成 二 进 制 信息 的 最 小 单位 , 称 为 一 个 比特 (bit) ,或 称 位 元 ,简称 位 。 比 特 是 计算 机 中 处 理 、 
存储 和 传输 信息 的 最 小 单位 。 

每 个 西 文字 符 需要 用 8 个 比特 表示 ,而 每 个 汉字 需要 用 16 个 比特 才能 表示 。 在 计算 机 
内 部 ,二进制 信息 的 计量 单位 是 字 节 (byte) ,也 称 位 组 。 一 个 字 节 等 于 8 个 比特 。 

计算 机 中 运算 和 处 理 二 进 制 信息 时 使 用 的 单位 除了 比特 和 字 节 之 外 ,还 经 常 使 用 字 
(word) 作 为 单位 。 必 须 注 意 , 不 同 的 计算 机 , 字 的 长 度 和 组 成 不 完全 相同 ,有 的 由 两 个 字 节 
组 成 ,有 的 由 4 个 .8 个 甚至 16 个 字 节 组 成 。 

在 考察 计算 机 性 能 时 ,一 个 很 重要 的 性 能 参数 就 是 机 器 的 字 长 。 平 时 所 说 的 “ 某 种 
机 器 是 16 位 机 或 是 32 位 机 ”中 的 16、32 就 是 指 字 长 。 所 谓 字 长 通常 是 指 CPU 内 部 用 于 
整数 运算 的 数据 通路 的 宽度 。CPU 内 部 数据 通路 是 指 CPU 内 部 的 数据 流 经 的 路 径 以 及 
路 径 上 的 部 件 ,主要 是 CPU 内 部 进行 数据 运算 .存储 和 传送 的 部 件 ,这 些 部 件 的 宽度 基本 
上 要 一 致 ,才能 相互 匹配 。 因 此 , 字 长 等 于 CPU 内 部 用 于 整数 运算 的 运算 器 位 数 和 通用 
寄存 器 宽度 。 

字 和 字 长 的 概念 不 同 ,这 一 点 请 注意 。 字 用 来 表示 被 处 理 信息 的 单位 ,用 来 度量 各 种 数 
据 类 型 的 宽度 。 通 常 系统 结构 设计 者 必须 考虑 一 台 机 器 将 提供 哪些 数据 类 型 ,每 种 数据 类 
型 提供 哪 几 种 宽度 的 数 ,这 时 就 要 给 出 一 个 基本 的 字 的 宽度 。 例 如 ,Intel x86 微 处 理 器 中 把 一 
个 字 定 义 为 16 位 。 所 提供 的 数据 类 型 中 ,就 有 单字 宽度 的 无 符号 数 和 带 符号 整数 (16 位 )、 双 
字 宽 度 的 无 符号 数 和 带 符号 整数 (32 位 ) 等 。 而 字 长 表示 进行 数据 运算 .存储 和 传送 的 部 件 
的 宽度 , 它 反 映 了 计算 机 处 理 信息 的 一 种 能 力 。 字 和 字 长 的 长 度 可 以 一 样 , 也 可 不 一 样 。 例 
如 ,在 Intel 微 处 理 器 中 ,从 80386 开始 就 至 少 都 是 32 位 机 器 了 , 即 字 长 至 少 为 32 位 ,但 其 
字 的 宽度 都 定义 为 16 位 ,32 位 称 为 双 字 。 

表示 二 进 制 信息 存储 容量 时 所 用 的 单位 要 比 字 节 或 字 大 得 多 ,主要 有 以 下 几 种。 

Kilobyte 1KB 王 22B 王 1024B 

Megabyte 1MB=2”B=1 048 576B 

Gigabyte 1GB=2”B=1 073 741 824B 

Terabyte 1TB=2*B=1 099 511 627 776B 

Petabyte 1PB=2”B=1 125 899 906 842 624B 


发 据 的 机 可 级 表示 


Exabyte & 1EB=2"B=1 152 921 504 606 846 976B 

Zettabyte ”1ZB 一 2"B 一 1 180 591 620 717 411 303 424B 

Yottabyte “1YB 一 28"B 一 1 208 925 819 614 629 174 706 176B 

在 描述 距离 ,频率 等 数值 时 通常 用 10 的 索 次 表示 ,因而 在 由 时 钟 频率 计算 得 到 的 总 线 


带宽 或 外 设 数据 传输 率 中 ,度量 单位 表示 的 也 是 10 的 寡 次 。 为 区 分 这 种 差别 ,本 书 中 用 天 表 
示 1024, 用 表示 1000, 而 其 他 前 级 字母 均 为 大 写 , 表 示 的 大 小 由 其 上 下 文 决定 。 


经 常 使 用 的 带宽 单位 如 下 : 

比特 / 秒 (b/s) 有 时 也 写 为 bps 

千 比 特 / 秒 (kb/s) 1kb/s==10b/s 王 1000by/s 

兆 比 特 / 秒 (Mb/s) ”1Mb/s=10°b/s==1000kb/s 

吉 比 特 / 秒 (Gb/s) 1Gb/s==10b/s==1000Mb/s 

太 比 特 / 秒 (Tb/s) ”1Tb/s=10*b/s==1000Gb/s 

由 于 程序 需要 对 不 同类 型 .不 同 长 度 的 数据 进行 处 理 , 所 以 ,计算 机 中 底层 机 器 级 的 数 


据 表示 必须 能 够 提供 相应 的 支持 。 比 如 ,需要 提供 不 同 长 度 的 整数 和 不 同 长 度 的 浮 点 数 表 
示 , 相 应 地 需要 有 处 理 单字 节 、 双 字 节 、4 字 节 甚至 是 8 字 节 整数 的 整数 运算 指令 ,以 及 能 够 
处 理 4 字 节 、8 字 节 浮 点 数 的 浮 点 数 运算 指令 等 。 


C 语言 支持 多 种 格式 的 整数 和 浮 点 数 表示 。 数 据 类 型 char 表示 单个 字 节 ,能 用 来 表示 


单个 字符 ,也 可 用 来 表示 8 位 整数 。 类 型 int 之 前 可 加 上 long 和 short, 以 提供 不 同 长 度 的 
整数 表示 。 表 2.7 给 出 了 在 典型 的 32 位 机 器 和 64 位 的 Compaq Alpha 机 器 上 C 语言 中 数 
值 数据 类 型 的 宽度 。 大 多 数 32 位 机 器 使 用 “典型 ”方式 。 从 表 2. 7 可 以 看 出 , 短 整数 为 2 个 
字 节 ,普通 int 型 整数 为 4 个 字 节 ,而 长 整数 的 长 度 与 机 器 字 长 的 宽度 相同 。 指 针 ( 例 如 一 
个 声明 为 类 型 char* 的 变量 ) 和 长 整数 的 宽度 一 样 , 也 等 于 机 器 字 长 的 宽度 。 一 般 机 器 都 
支持 float 和 double 两 种 类 型 的 浮 点 数 ,分 别 对 应 IEEE 754 单 精 度 和 双 精 度 格式 。 











表 2.7 C 语言 中 数值 数据 类 型 的 宽度 单位 : 字 节 
C 声明 典型 的 32 位 机 器 Compaq Alpha 机 器 
char 1 | 
short int 2 2 
int 4 4 
long int 4 8 
char* 4 8 
float 4 4 
double 8 8 








由 此 可 见 , 同 一 类 型 的 数据 并 不 是 所 有 机 器 都 采用 相同 的 数据 宽度 ,分 配 的 字 节 数 随机 


器 和 编译 器 的 不 同 而 不 同 。 
2.6.2 数据 的 存储 和 排列 顺序 


任何 信息 在 计算 机 中 用 二 进 制 编码 后 ,得 到 的 都 是 一 串 0/1 序列 ,每 8 位 构成 一 个 字 


节 , 不 同 的 数据 类 型 具有 不 同 的 字 节 宽度 。 在 计算 机 中 存储 数据 时 ,数据 从 低位 到 高 位 可 以 
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按 从 左 到 右 排列 ,也 可 以 按 从 右 到 左 排列 。 所 以 ,用 最 左 位 (leftmost) 和 最 右 位 (rightmost) 
来 表示 数据 中 的 数位 时 会 发 生 歧 义 。 因 此 ,一 般 用 最 低 有 效 位 (Least Significant Bit, LSB) 
和 最 高 有 效 位 (Most Significant Bit, MSB) 来 分 别 表示 数 的 最 低位 和 最 高 位 。 对 于 带 符号 
数 , 最 高 位 是 符号 位 ,所 以 MSB 就 是 符号 位 。 这 样 ,不 管 数 是 从 左 往 右 排 ,还 是 从 右 往 左 
排 ,只 要 明确 MSB 和 LSB 的 位 置 ,就 可 以 明确 数 的 符号 和 数值 。 例 如 , 数 5 在 32 位 机 器 上 
用 int 类 型 表示 时 的 0/1 序列 为 0000 0000 0000 0000 0000 0000 0000 0101, 其 中 最 前 面 的 
一 位 0 是 符号 位 , 即 MSB=0, 最 后 面 的 1 是 数 的 最 低 有 效 位 , 即 LSB=1。 

如 果 以 字 节 为 一 个 排列 基本 单位 ,那么 LSB 表示 最 低 有 效 字 节 (Least Significant 
Byte) ,MSB 表示 最 高 有 效 字 节 (Most Significant Byte) 。 现 代 计 算 机 基本 上 都 采用 字 节 编 
址 方式 , 即 对 存储 空间 的 存储 单元 进行 编号 时 ,每 个 地 址 编号 中 存放 一 个 字 节 。 计 算 机 中 许 
多 类 型 的 数据 由 多 个 字 节 组 成 ,例如 ,int 和 float 型 数据 占用 4 个 字 节 ,double 型 数据 占用 
8 个 字 节 等 ,而 程序 中 对 每 个 数据 只 给 定 一 个 地 址 。 例 如 ,在 一 个 按 字 节 编 址 的 计算 机 中 ， 
假定 int 型 变量 i 的 地 址 为 08 00H,i 的 机 器 数 为 01 23 45 67H, 这 4 个 字 节 01H、23H、 
45HH、67H 应 该 各 有 一 个 内 存 地 址 ,那么 ,地 址 08 00H 对 应 4 个 字 节 中 的 哪个 字 节 的 地 址 
呢 ? 这 就 是 字 节 排列 顺序 问题 。 

在 所 有 计算 机 中 ,多 字 节 数据 都 被 存放 在 连续 的 字 节 序列 中 。 根 据 数据 中 各 字 节 在 连 
续 字 节 序 列 中 的 排列 顺序 的 不 同 ,可 有 两 种 排列 方式 : 大 端 (big endian) 和 小 端 (little 
endian) ,如 图 2.5 所 示 。 











0800H 0801H 0802H 0803H 

大 端 方式 人 01H 23H 45H 67H 
0800H 0801H 0802H 0803H 

小 端 方式 oe 67H 45H 23H 01H 




















图 2.5 大 端 方式 和 小 端 方式 


大 端 方式 将 数据 的 最 高 有 效 字 节 MSB 存放 在 低地 址 单元 中 ,将 最 低 有 效 字 节 LSB 存 
放 在 高 地 址 单元 中 , 即 数据 的 地 址 就 是 MSB 所 在 的 地 址 。IBM 360/370、Motorola 68000、 
MIPS、SPARC、HP PA 等 机 器 都 采用 大 端 方式 。 

小 端 方式 将 数据 的 最 高 有 效 字 节 MSB 存放 在 高 地 址 中 ,将 最 低 有 效 字 节 LSB 存放 在 
低地 址 中 , 即 数 据 的 地 址 就 是 LSB 所 在 的 地 址 。Intel 80x86、DEC VAX 等 都 采用 小 端 
方式 : 

有 些微 处 理 器 芯片 ,如 Alpha 和 Motorola 的 PowerPC, 能 够 运行 在 任意 一 种 模式 ,只 
要 在 芯片 加 电 启 动 时 选择 确定 采用 大 端 还 是 小 端 模 式 即 可 。 每 个 计算 机 系统 内 部 的 数据 排 
列 顺序 都 是 一 致 的 ,但 在 系统 之 间 进 行 通信 时 可 能 会 发 生 问题 。 在 排列 顺序 不 同 的 系统 之 
间 进 行 数据 通信 时 ,需要 进行 顺序 转换 。 网 络 应 用 程序 员 必 须 遵守 字 节 顺序 的 有 关 规 则 ,以 
确保 发 送 方 机 器 将 它 的 内 部 表示 格式 转换 为 网 络 标准 ,而 接收 方 机 器 则 将 网 络 标准 转换 为 
自己 的 内 部 表示 格式 。 

此 外 , 像 音频 视频 和 图 像 等 文件 格式 或 处 理 程序 也 都 涉及 字 节 顺序 问题 。 如 GIF .PC 
Paintbrush、Microsoft RTF 等 采用 小 端 方式 , Adobe Photoshop JPEG 、MacPaint 等 采用 大 
端 方式 。 


发 据 的 抽 可 级 表示 


了 解 字 节 顺序 的 好 处 还 在 于 调试 底层 机 器 级 代码 时 能 够 清楚 每 个 数据 的 字 节 顺序 ,以 
便 将 一 个 机 器 数 正确 转换 为 真 值 。 例 如 ,以 下 是 一 个 由 反 汇 编 器 ( 反 汇编 是 汇编 的 逆 过 程 ， 
即将 指令 代码 转换 为 汇编 表示 ) 生 成 的 一 行 针对 某 个 处 理 器 的 机 器 级 代码 表示 文本 : 


80483BD:01 05 64 94 04 08 add %eax, 0x8049464 


该 文本 行 中 ,“80483BD” 代 表 地 址 ,是 十 六 进 制 表 示 形 式 ,“01 05 64 94 04 08” 是 指令 的 
机 器 代码 , 按 顺序 存放 在 地 址 080483BDH 开始 的 6 个 连续 单元 中 ,“add %eax,0x8049464” 
是 指令 的 汇编 形式 。 该 指令 的 第 二 个 操作 数 是 一 个 立即 数 0x8049464, 用 十 六 进 制 数 
08044964H 表示 。 指 令 执 行 时 ,直接 从 指令 代码 的 后 4 个 字 节 中 取出 该 立即 数 ,从 指令 代 
码 中 可 看 出 ,立即 数 存 放 的 字 节 序列 为 64H、94H、04H、08H, 正 好 与 操作 数 的 字 节 序列 相 
反 。 显 然 ,该 处 理 器 采用 的 是 小 端 方式 。 在 阅读 这 种 小 端 方式 机 器 生成 的 机 器 级 程序 代码 
时 ,要 记 住 字 节 是 按照 相反 的 顺序 显示 的 。 

例 2.25 以 下 是 一 段 C 程 序 , 其 中 函数 show_int 和 show_float 分 别 用 于 显示 int 型 和 
float 型 数据 的 值 ,show_pointer 用 于 显示 指向 int 型 数据 的 指针 的 值 。 显 示 的 结果 都 用 十 
六 进 制 形式 表示 。 

void test_ show bytes (int val) 
{ 
int ival=val; 


float fval= (float) ival; 


Show_int(ival)7 
show float (fval); 


1 

2 

3 

4 

5 int * pval=&ival; 
6 

学 

8 show_pointer (pval); 
9 


} 


上 述 程序 在 不 同系 统 (Linux 和 Windows NT 运行 于 Intel Pentium 开 ) 上 运行 的 结果 
见 表 2.8。 


表 2.8 程序 在 不 同系 统 中 的 运行 结果 














系 统 值 类 型 字 节 (十 六 进 制 ) 
Linux 12345 int 39 30 00 00 
Windows NT 12345 int 39 30 00 00 
Sun 12345 int 00 00 30 39 
Alpha 12345 int 39 30 00 00 
Linux 12345.0 float 00 E4 40 46 
Windows NT 12345.0 float 00 E4 40 46 
Sun 12345.0 float 46 40 E4 00 
Alpha 12345.0 float 00 E4 40 46 
Linux Rival int 关 3C FA FF BF 
Windows NT &ival int * 1C FF 44 02 
Sun Rival int* EF FF FC FA 
Alpha &ival int * 80 FC FF 1F 01 00 00 00 
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请 回答 下 列 问题 。 

(1) 十 进 制 数 12345 用 32 位 补 码 整数 和 32 位 浮 点 数 表示 的 结果 各 是 什么 ? 

(2) 十 进 制 数 12345 的 整数 表示 和 浮 点 数 表示 中 存在 一 段 相 同位 序列 ,标记 出 这 段位 
序列 ,并 说 明 为 什么 会 相同 。 对 一 个 负数 来 说 ,其 整数 表示 和 浮 点 数 表示 中 是 否 也 一 定 会 出 
现 一 段 相同 的 位 序列 ? 为 什么 ? 

(3) Intel Pentium 开采 用 的 是 小 端 方式 还 是 大 端 方式 ? 

(4) Sun 和 Alpha 之 间 能 否 直接 进行 数据 传送 ? 为 什么 ? 

(5) 在 Alpha 上 , 表 中 数据 字 节 30H 所 存放 的 地 址 是 什么 ? 

解 : (1) 十 进 制 数 12345 用 32 位 补 码 整 数 表 示 为 0000 0000 0000 0000 0011 0000 0011 
1001, 用 32 位 浮 点 数 表 示 为 0100 0110 0100 0000 1110 0100 0000 0000, 用 十 六 进 制 表 示 分 
别 为 00 00 30 39H 和 46 40 E4 00H。 

(2) 十 进 制 数 12345 的 整数 表示 和 浮 点 数 表示 中 相同 位 序列 为 1 0000 0011 1001( 见 
(1) 的 粗 体 部 分 ) 。 因 为 对 正 数 来 说 , 原 码 和 补 码 的 编码 相同 ,所 以 其 整数 ( 补 码 表示 ) 和 浮 点 
数 尾 数 ( 原 码 表示 ) 的 有 效 数 位 一 样 。12345 的 有 效 数位 是 11 0000 0011 1001。 有 效 数位 在 
定点 整数 中 位 于 低位 数值 部 分 ,在 浮 点 数 的 尾数 中 位 于 高 位 部 分 。 因 为 尾数 中 有 一 个 隐 含 
的 1, 所 以 第 一 个 有 效 数位 1 在 浮 点 数 中 不 表示 出 来 ,因此 ,相同 的 位 序列 就 是 后 面 的 
13 位 。 

因为 IEEE 754 浮 点 数 的 尾数 用 原 码 表示 ,而 整数 用 补 码 表示 ,负数 的 原 码 和 补 码 表示 
不 同 , 所 以 ,对 某 一 个 负数 来 说 ,其 整数 表示 和 浮 点 数 表示 中 不 一 定 会 有 相同 的 一 段位 序列 。 

(3) Linux 和 Windows NT( 运 行 在 Intel Pentium II) 的 存放 方式 与 书写 习惯 顺序 相 
反 , 故 Intel Pentium 开采 用 的 是 小 端 方式 。 

(4) Sun 和 Alpha 之 间 不 能 直接 进行 数据 传送 。 因 为 它们 采用 了 不 同 的 存放 方式 ,Sun 
是 大 端 方式 ,这 里 Alpha 设置 的 是 小 端 方式 。 

(5) 在 Alpha 上 数据 字 节 30H 存放 在 地 址 00 00 00 01 1F FF FC 81H 中 。 因 为 从 
Alpha 输出 的 int 型 指针 结果 来 看 ,Alpha 的 主 存 地 址 占 64 位 ,30H 是 int 型 数据 12345 的 
次 低 有 效 字 节 , 小 端 方式 下 数据 地 址 取 LSB 的 地 址 ,所 以 30H 存放 的 地 址 应 该 是 数据 地 址 
随后 的 那个 地 址 。 根 据 小 端 方式 下 存放 结果 和 书写 习惯 顺序 相反 的 规律 ,可 知 数据 12345 
的 地 址 是 00 00 00 01 1F FF FC 80H, 所 以 ,随后 的 地 址 就 是 00 00 00 01 1F FF FC 81H。 


2.7 数据 校 验 码 


数据 在 计算 机 内 部 进行 计算 、 存 取 和 传送 过 程 中 ,由 于 元 器 件 故障 或 噪音 干扰 等 原因 会 
出 现 差 错 。 为 了 减少 和 避免 这 些 错 误 ,一 方面 要 从 计算 机 硬件 本 身 的 可 靠 性 入 手 , 在 电路 、 
电源 、 布 线 等 各 方面 采取 必要 的 措施 ,提高 计算 机 的 抗 干 扰 能 力 ; 男 一 方面 要 采取 相应 的 数 
据 检 错 和 校正 措施 ,自动 地 发 现 并 纠正 错误 。 

目前 为 止 提 出 的 数据 校 验方 法 大 多 采用 一 种 宛 余 校 验 的 思想 , 即 除 原 数据 信息 外 ,还 增 
加 若干 位 编码 ,这 些 新 增 的 代码 称 为 校 验 位 。 图 2. 6 给 出 了 一 般 情况 下 的 处 理 过 程 。 

当 数据 被 存 人 存储 器 或 从 源 部 件 传输 时 ,对 数据 M 进行 某 种 运算 (用 函数 下 来 表示 )， 
以 产生 相应 的 代码 P 二 FCM) ,这 里 已 就 是 校 验 位 。 这 样 原 数据 信息 M 和 相应 的 校 验 位 


数据 的 机 可 级 表示 


出 错 信号 
数据 输出 M 














纠 错 器 | 
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存储 器 | | 
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2.6 ”数据 校 验 过 程 示 意图 


P 一 起 被 存储 或 传送 。 当 数据 被 读 出 或 传送 到 目标 部 件 时 ,和 数据 信息 一 起 被 存储 或 传送 
的 校 验 位 也 被 得 到 ,用 于 检 错 和 纠 错 。 假 定 读 出 后 的 数据 为 M ,通过 同样 的 运算 下 对 M' 也 
得 到 一 个 新 的 校 验 位 P'= 二 FOUM ) ,假定 原来 被 存储 的 校 验 位 已 取出 后 其 值 为 P”, 将 校 验 位 
P' 与 新 生成 的 校 验 位 P' 进 行 某 种 比较 ,根据 其 比较 结果 确定 是 否 发 生 了 差错 。 比 较 的 结果 
为 以 下 3 种 情况 之 一 。 

(1) 没有 检测 到 错误 ,得 到 的 数据 位 直接 传送 出 去 。 

(2) 检测 到 差错 ,并 可 以 纠 错 。 数 据 位 和 比较 结果 一 起 送 入 纠 错 器 ,然后 将 产生 的 正确 
的 数据 位 传送 出 去 。 

(3) 检测 到 错误 ,但 无 法 确认 哪 位 出 错 ,因而 不 能 进行 纠 错 处 理 , 此 时 ,报告 出 错 情况 。 

为 了 判断 一 种 码 制 的 元 余 程度 ,并 评估 它 的 查 错 和 纠 错 能 力 ,引入 了 码 距 的 概念 。 由 若 
干 位 代码 组 成 的 一 个 字 叫 码 字 ,将 两 个 码 字 逐 位 比较 ,具有 不 同 代码 的 位 的 个 数 叫 做 这 两 个 
码 字 间 的 距离 ,也 称 为 海 明 距 离 。 一 种 码 制 可 能 有 若干 个 码 字 ,各 码 字 间 的 最 小 距离 称 为 码 
距 。 例 如 8421 码 中 ,2(0010) 和 3(0011) 之 间距 离 为 1, 所 以 8421 码 制 的 码 距 为 1, 记 作 d= 
1。 在 数据 校 验 码 中 ,一 个 码 字 是 指数 据 位 和 校 验 位 按照 某 种 规律 排列 得 到 的 代码 。 

一 般 来 说 ,合理 地 增加 校 验 位 、 增 大 码 距 , 就 能 提高 检 错 / 纠 错 的 能 力 。 例 如 ,如 果 采 用 
4 位 二 进 制 编码 0000~1111 表示 16 种 状态 , 则 码 距 为 1, 因 为 这 组 编码 的 任何 一 个 4 位 码 
中 出 现 一 位 或 多 位 错误 ,都 会 变 成 男 一 个 合法 编码 ,因此 ,这 种 编码 没有 检 错 / 纠 错 能 力 。 如 
果 采 用 4 位 二 进 制 表示 8 个 状态 : 0000、0011、0101、0110、1001、1010、1100、1111, 其余 的 
4 位 编码 都 是 非法 的 。 本 来 8 个 状态 只 要 3 位 二 进 制 就 够 了 ,现在 增加 一 个 宛 余 位 ,并 使 码 
距 为 2, 这 样 ,这 8 个 合法 编码 中 如 果 某 个 编码 发 生 了 一 位 错误 ,那么 就 会 变 成 一 个 非法 编 
码 , 因 而 就 能 检测 出 来 。 

上 述 例子 说 明码 距 与 检 错 、 纠 错 能 力 之 间 存 在 一 定 的 关系 。 当 码 距 d 委 4 时 ,关系 
如 下 : 

(1) 如 果 码 距 4 为 奇数 , 则 能 发 现 d 一 1 位 错 ,或 者 能 纠正 (4 一 1)/2 位 错 。 

(2) 如 果 码 距 4 为 偶数 , 则 能 发 现 4/2 位 错 , 并 能 纠正 (4/2 一 1) 位 错 。 

常用 的 数据 校 验 码 有 奇偶 校 验 码 \ 海 明 校 验 码 和 循环 元 余 校 验 码 。 


2.7.1 奇偶 校 验 码 
最 简单 的 数据 校 验方 法 是 奇偶 校 验 。 实 现 原理 如 下 : 假设 将 数据 B 二 5 15,，，…bib。 从 
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源 部 件 传送 至 目标 部 件 。 在 目标 部 件 接收 到 的 数据 为 B 一 多 -0 … 和 0 。 为 了 判断 数据 
B 在 传送 中 是 否 发 生 了 错误 ,可 以 按照 如 下 步骤 来 判断 。 

第 一 步 : 在 源 部 件 求 出 奇 ( 偶 ) 校 验 位 P。 

若 采 用 奇 校 验 位 , 则 P==6,_1 甸 5,_: 外 … 外 轴 旬 bo 四 1, 即 当 B 有 奇数 个 1 时 P 取 0, 否 
则 ,P 取 1; 若 采用 偶 校 验 位 , 则 书 一 0 四 0 四 … 四 六 四 %。 举 例如 下 : 若 传送 的 是 字符 
A ,编码 为 100 0001B ,在 前 面 增加 奇 校 验 位 后 的 编码 为 1100 0001B ,而 加 上 偶 校 验 位 后 的 编 
码 为 0100 0001B。 

第 二 步 : 在 目标 部 件 求 出 奇 ( 偶 ) 校 验 位 P'。 

若 采 用 奇 校 验 位 , 则 已 一 0 四 六 -四 … 四 站 四 %% 四 1; 若 采用 偶 校 验 位 , 则 已 一 
0 四 0 四 … 申 下 四 由。 

第 三 步 : 计算 最 终 的 校 验 位 P* ,并 根据 其 值 判断 有 无 奇偶 错 。 

P 与 B 是 一 起 从 源 部 件 传 到 目标 部 件 的 ,假定 P 在 目标 部 件 接收 到 的 值 为 P”, 则 

“一 P'@ P'。 若 P' =1, 则 表示 有 奇数 位 错 ; 若 P* = 二 0, 则 表示 正确 或 有 偶数 个 错 。 

在 奇偶 校 验 码 中 , 若 两 个 数据 中 有 奇数 位 不 同 , 则 它们 相应 的 校 验 位 就 不 同 ; 若 有 偶数 
位 不 同 , 则 虽 校 验 位 相同 ,但 至 少 有 两 位 数据 位 不 同 ,因而 任意 两 个 码 字 之 间 至 少 有 两 位 不 
同 , 所 以 码 距 d= 二 2。 根 据 码 距 和 检 错 / 纠 错 能 力 的 关系 可 知 , 它 只 能 发 现 奇数 位 出 错 ,不 能 
发 现 偶数 位 出 错 ,而 且 也 不 能 确定 发 生 错 误 的 位 置 ,不 具有 纠 错 能 力 。 但 奇偶 校 验 法 所 用 的 
开销 小 , 它 常 被 用 于 存储 器 读 写 检 查 或 按 字 节 传输 过 程 中 的 数据 校 验 。 因 为 一 字 节 长 的 代 
码 中 一 位 出 错 的 概率 相对 较 大 ,两 位 以 上 出 错 则 很 少 ,所 以 奇偶 校 验 码 用 于 校 验 一 字 节 长 的 
代码 还 是 有 效 的 。 


2.7.2 海 明 校 验 码 


前 面 所 述 的 奇偶 校 验 码 是 对 整个 数据 编码 生成 一 位 校 验 位 。 因 此 这 种 校 验 码 检 错 能 力 
差 , 并 且 没 有 纠 错 能 力 。 海 明 校 验 码 由 Richard Hamming 于 1950 年 提出 ,其 主要 思想 是 : 
将 数据 按 某 种 规律 分 成 若干 组 ,对 每 组 进行 相应 的 奇偶 检测 ,以 提供 多 位 校 验 信息 ,从 而 可 
对 错误 位 置 进行 定位 ,并 将 其 纠正 。 海 明 校 验 码 实质 上 就 是 一 种 多 重 奇偶 校 验 码 。 

海 明 校 验 过 程 与 图 2.6 所 示 的 过 程 相同 。 最 终 比 较 时 按 位 进行 异 或 操作 ,根据 异 或 操 
作 的 结果 ,确定 是 否 发 生 了 差错 。 这 种 异 或 操作 所 得 到 的 结果 被 称 为 故障 字 (syndrome 
word) 。 显 然 , 校 验 位 和 故障 字 的 位 数 是 相同 的 。 

1. 校 验 位 的 位 数 的 确定 

假定 被 校 验 数据 的 位 数 为 n, 校 验 位 为 位 , 则 故障 字 的 位 数 也 为 位 。 那 么 位 的 故 
障 字 所 能 表示 的 状态 最 多 是 2* 种 ,每 种 状态 可 用 来 说 明 一 种 出 错 情况 。 对 于 最 多 只 有 一 位 
错 的 情况 ,其 结果 可 能 是 无 错 ,或 位 数据 中 某 一 位 出 错 ,或 位 校 验 码 中 某 一 位 出 错 。 因 
此 ,共有 1 十 n 十 kk 种 情况 ,所 以 ,要 能 对 一 位 错 的 所 有 结果 进行 正确 表示 , 则 nn 和 必须 满足 
下 列 关系 : 

mth 好 = 

例如 ,对 于 单个 位 纠 错 的 情况 , 当 数 据 有 8 位 时 , 校 验 位 和 故障 字 都 应 有 4 位 。4 位 的 故 
障 字 最 多 可 以 表示 16 种 状态 ,而 单个 位 出 错 情 况 最 多 只 有 12 种 可 能 (8 个 数据 位 和 4 个 校 验 
位 ) ,再 加 上 无 错 的 情况 ,一 共有 13 种 情况 。 所 以 ,用 16 种 状态 表示 13 种 情况 是 足够 了 。 


发 据 的 机 可 级 表示 


2. 分 组 方式 的 确定 

数据 位 和 校 验 位 是 一 起 被 存储 的 ,通过 将 它们 中 的 各 位 按 某 种 方式 排列 为 一 个 z 十 & 位 
的 码 字 ,将 该 码 字 中 每 一 位 的 出 错位 置 与 故障 字 的 数值 建立 关系 ,这 样 就 可 通过 故障 字 的 值 
很 快 确定 是 该 码 字 中 的 哪 一 位 发 生 了 错误 ,从 而 将 其 取 反 来 进行 纠正 。 

根据 上 述 基 本 思想 , 按 以 下 规则 来 解释 各 故障 字 的 值 : 

(1) 如 果 故 障 字 各 位 全 部 是 0, 则 表示 没有 发 生 错误 。 

(2) 如 果 故 障 字 中 有 且 仅 有 一 位 为 1, 则 表示 校 验 位 中 有 一 位 出 错 , 不 需要 纠正 。 

(3) 如 果 故 障 字 中 多 位 为 1, 则 表示 有 一 个 数据 位 出 错 ,其 在 码 字 中 的 出 错位 置 由 故障 
字 的 数值 来 确定 。 纠 正 时 只 要 将 出 错位 取 反 即 可 。 

为 了 介绍 海 明 校 验 码 的 原理 ,这 里 以 8 位 数据 进行 单个 位 的 检 错 / 纠 错 为 例 说 明 。 假 定 
一 个 8 位 数据 M= Ms M1: Ms M;MM;M;Mi ,其 相应 的 4 位 校 验 位 为 P=P.PsPsPis 根据 
上 述 规则 将 数据 M 和 校 验 位 P 按照 一 定 的 规律 排 到 一 个 12 位 的 码 字 中 。 根 据 上 述 第 一 个 
规则 ,故障 字 为 0000 时 ,表示 无 错 , 因 此 没有 和 位 置 号 0000 对 应 的 出 错 情况 ,所 以 位 置 号 从 
0001 开始 。 根 据 第 二 个 规则 ,故障 字 中 有 且 仅 有 一 位 为 1 时 ,表示 校 验 位 中 有 一 位 出 错 ,此 
时 ,故障 字 只 可 能 是 0001、0010、0100、1000 这 4 种 情况 ,将 这 4 种 状态 分 别 代表 校 验 位 中 第 
Pi、Ps、P;、P, 位 发 生 错误 的 情况 ,因此 , 校 验 位 Pi、P;、P;、P, 应 分 别 位 于 码 字 的 第 0001 
(1) 、0010(2)、0100(4)、1000(8) 位 。 根 据 最 后 一 个 规则 ,将 其 他 多 位 为 1 的 故障 字 依 次 表示 
数据 位 M ~~Ms 发 生 错误 的 情况 。 因 此 ,数据 位 M ~ Ms 应 分 别 位 于 码 字 的 第 0011(3)、 
0101(5)、0110(6) .0111(7) .1001(9) .1010(10) .1011(11) 、1100(12) 位 。 即 码 字 的 排列 为 

Ms M; Ms Ms P, M,M: M, Ps Mi P, P， 

这 样 , 得 到 故障 字 SS,S;SsS, 的 各 个 状态 和 出 错 情况 的 对 应 关系 ,如 表 2.9 所 示 。 因 为 
故障 字 的 值 决定 了 哪 位 出 错 ,所 以 , 某 位 出 错 一 定 会 影响 与 之 相对 应 的 故障 字 中 为 1 的 位 所 
在 组 的 奇偶 性 。 例 如 , 若 Mi 出 错 , 则 对 应 故障 字 为 0011, 因 此 一 定 会 改变 S, 和 Ss。 所 在 分 
组 的 奇偶 性 , 故 M 应 同时 被 分 到 与 S; 对 应 的 第 1 组 和 与 S; 对 应 的 第 2 组 。 同 理 ， 
忆 对 应 故障 字 0001, 故 P, 应 被 分 到 与 S, 对 应 的 第 1 组 ;Ms 对 应 故障 字 1100 , 故 应 分 到 与 
S; 对 应 的 第 3 组 和 与 S, 对 应 的 第 4 组 。 表 2. 9 中 根据 这 种 对 应 关系 对 数据 进行 了 分 组 。 
每 个 组 i 有 一 个 奇偶 校 验 位 P,。 若 第 ;组 中 的 一 位 发 生 错误 ,那么 该 组 对 应 的 那些 位 的 奇 
偶 性 发 生变 化 ,可 根据 该 组 对 应 的 故障 位 S; 的 值 是 否 为 1 来 判断 奇偶 性 是 否 发 生 了 变化 ， 
从 而 确定 该 组 是 否 发 生 了 一 位 错误 。 


表 2.9 故障 字 和 出 错 情况 的 对 应 关系 

















号 1|2|3|4|5|6|7|8|19|11o|1|312| 故 障 | 正 出 错 位 
分 组 ~、 合 义 P | P, | Mi | P, | Me |M: |M PMAM |M MG 字 | 确 |123456789101112 
第 4 组 Yl yy v| S |0oloooo00011111 
第 3 组 VIvVIvI~ ls |o0ol000111100001 
第 2 组 VI~v VI~v VI~v S: |0|o11001100110 
第 1 组 |V NN V/ JV NA JV S |0 01010101010 












































从 表 2.9 中 可 以 看 出 ,每 一 个 数据 位 至 少 要 参与 两 组 奇偶 校 验 位 的 生成 。 例 如 ,Ms 与 
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第 1 组 (P,) 和 第 4 组 (P,) 有 关 ,M; 与 第 1 组 (P,) .第 2 组 (P,) 和 第 4 组 (P,) 有 关 。 

3. 校 验 位 的 生成 和 检 错 、 纠 错 

分 组 完成 后 ,就 可 对 每 组 采用 相应 的 奇 ( 偶 ) 校 验 ,以 得 到 相应 的 一 个 校 验 位 。 假 定 采用 偶 
校 验 ( 即 取 校 验 位 已 ,使 对 应 组 中 有 偶数 个 1) , 则 得 到 校 验 位 与 数据 位 之 间 存 在 如 下 关系 : 

P= Mi 申 M 中 M 四 Mi; 中 M: 
P;= M 四 Ms 四 M 中 Me 中 M， 
P; = M 中 Ms 四 M 中 Ms 
P= M; 中 Ms 中 M 中 Ms 

根据 上 面 的 公式 ,可 以 求 出 每 一 组 对 应 的 校 验 位 Pi (一 1,2,3,4)。 数 据 M 和 校 验 位 P 一 
起 被 存储 。 读 出 后 的 数据 M' 通 过 上 述 同 样 的 公式 得 到 新 的 校 验 位 P' ,然后 将 读 出 后 的 校 验 位 
也 与 新 生成 的 校 验 位 P' 按 位 进行 异 或 操作 ,得 到 故障 字 S= SS;S;Si ,根据 S 的 值 可 以 确定 
是 否 发 生 了 错误 ,并且 在 发 生 错误 时 能 确定 是 校 验 位 发 生 错误 还 是 哪个 数据 位 发 生 了 错误 。 

下 面 举例 说 明 具 体 的 检 错 、 纠 错过 程 。 

例 2.26 假定 一 个 8 位 数据 M 为 MsM; MsM:M,M:M:M = 01101010, 其 对 应 的 校 验 
位 为 P,M 和 PP 被 存储 或 经 传送 后 得 到 的 新 数据 和 新 校 验 码 分 别 为 M' 和 P”。 要 求 分 别 求 
出 以 下 情况 下 的 故障 字 并 验证 其 正确 性 。 

(1) M“= 01101010, P=0011 

(2) M’= 01111010, P=0011 

(3) M’= 01101010, P=1011 

解 : 根据 上 述 公式 求 出 数据 M 的 校 验 位 P 中 相应 的 各 位 。 

P=M 人 OM,.OMOAOMOM,=00B1O1®0B1=1 
P = MOMOMAOAMAOM,=0BIO1O1IO1=1 
P;= M 四 Ms 四 Mi 四 Ms =1 中 0 四 1 四 0=0 
P= MOMDBM 四 Ms =0 四 1 四 1 四 0=0 
(1) 当 M'= 01101010, P==0011 时 ,因为 M' 王 M, 说 明 数 据 无 错 , 故 障 字 S 应 为 0。 验 
证 如 下 : 因 M'=M, 故 P'== P, 同 时 P= P, 因 此 故障 字 S=P'@BP’=P@P= 二 0000。 
(2) 当 M'= 01111010 ,已 =0011 时 ,说 明 数据 第 5 位 (Mi) 错 ,故障 字 S 应 该 为 9。 验 
证 如 下 。 
对 M 生成 新 的 校 验 位 P' 为 
Pi=MO@OMOMOMOM=0DID1I1O1@1=0 
P= MOMOMOMOM=0DBID1IOD1D1=1 
P=MOMOMOM=1@0B1@0=0 
P= MI 四 MI 四 MI 四 MS=1 四 1 四 1 四 0=1 

因此 ,故障 字 S 为 





































































































S=P@P=0@m1=1 
S:= PDP=1®@1=0 
S= PMP=0®@0=0 
S= PP=1®@0=1 








发 据 的 机 可 级 表示 


根据 故障 字 的 值 1001, 可 以 判断 出 发 生 错 误 的 位 是 在 12 位 码 字 的 第 1001 位 ( 即 第 
9 位 ) ,在 这 一 位 上 排列 的 是 数据 位 Ms ,所 以 验证 正确 。 纠 错时 ,只 要 将 码 字 的 第 9 位 ( 即 第 
5 个 数据 位 ) 取 反 即 可 。 

(3) 当 M = 01101010, 忆 =1011 时 ,说 明 数 据 M 无 错 , 校 验 位 P, 错 ,故障 位 S 应 为 8。 
验证 如 下 。 

因为 M = 二 M, 所 以 P'==P, 故 障 位 S 为 

S = Pi®Pi=1®@1=0 
S:= POP=1@1=0 
S;= POP=0@0=0 
S 一 Pi 中 RM=0 四 1=1 

根据 故障 字 的 值 1000, 可 以 判断 出 发 生 错误 的 位 是 在 12 位 码 字 的 第 1000 位 ( 即 第 
8 位 ) ,在 这 一 位 上 排列 的 是 校 验 位 P, ,所 以 验证 正确 。 这 种 情况 下 不 需 纠 错 。 

从 上 述 对 数据 位 数 "一 8、 校 验 位 数 & 一 4 的 分 组 情况 来 看 ,如 果 两 个 数据 有 一 位 不 同 ， 
那么 由 于 该 位 至 少 要 参与 两 组 校 验 位 的 生成 ,因而 至 少 会 引起 两 个 校 验 位 的 不 同 , 再 加 上 数 
据 位 本 身 一 位 的 不 同 ,所 以 其 码 距 4d=3。 根 据 码 距 与 检 错 、 纠 错 能 力 的 关系 ,可 知 这 种 码 制 
若 用 来 判别 有 无 错误 , 则 能 发 现 两 位 错 ; 若 用 来 纠 错 , 则 只 能 对 单个 位 出 错 进行 定位 和 纠 错 ， 
因此 被 称 为 单 纠 错 码 (SEC) 。 

车 校 验 码 同时 具有 发 现 两 位 错 和 纠正 一 位 错 的 能 力 , 则 称 为 单 纠 错 和 双 检 错 码 (SEC- 
DED) ,简称 “ 纠 一 检 二 ” 码 。 若 要 使 上 述 介 绍 的 单 纠 错 码 成 为 SEC-DED 码 , 则 码 距 需 扩 大 
到 d 二 4。 为 此 ,还 需要 增加 一 位 校 验 位 P; ,可 将 P; 排列 在 码 字 的 最 前 面 ,加 入 P; 后 的 排 
列 顺序 为 








P: Ms M: Ms Ms P.M, Ms M; Ps Mi P,P 

此 外 ,还 必须 使 得 数据 中 的 每 一 位 都 参与 至 少 3 个 校 验 位 的 生成 ,从 表 2.9 中 可 看 出 ， 
除了 MM 和 M; 参与 了 3 个 校 验 位 的 生成 外 ,其 余 位 都 只 参与 了 两 个 校 验 位 的 生成 ,因此 可 
将 这 些 位 加 入 到 Ps 所 在 的 组 中 ,得 到 以 下 公式 : 

Pi 一 Mi 四 Ms 申 Ms 申 M 四 Me 由 Ms 

这 样 , 当 任意 一 个 数据 位 发 生 错 误 时 , 必 将 引起 3 个 校 验 位 发 生变 化 ,所 以 码 距 为 4。 

引入 P; 后 ,故障 字 S 也 增加 了 一 位 , 即 ==S;S,S;S;Si ,按照 类 似 的 方法 可 以 求 出 故障 
字 S 中 各 位 的 值 ,根据 S;S,S;S,Si 的 取 值 情况 , 即 可 按照 如 下 规则 发 现 两 位 错 并 纠正 一 
位 错 。 

(1) 当 S; SSsS: Si 为 00000 时 ,表明 无 错 。 

(2) 当 S; SiS;S,Si 中 仅 一 位 不 为 0 时 ,表明 由 S 指定 位 置 上 的 那个 校 验 位 发 生 了 错 
误 ,或 是 在 数据 和 校 验 位 中 有 3 位 同时 出 错 , 但 后 一 种 可 能 性 很 小 ,所 以 一 般 认 为 就 是 发 生 
了 前 一 种 情况 。 

(3) 当 5; SiS;S,S 中 有 两 位 不 为 0 时 ,表明 数据 和 校 验 位 中 有 两 位 同时 出 错 , 此 时 只 
能 发 现 这 种 错误 ,但 无 法 确定 是 哪 两 位 错 。 

(4) 当 SSiSsS:S 中 有 3 位 不 为 0 时 ,表明 有 一 个 数据 位 发 生 了 错误 ,或 是 3 个 校 验 
位 同时 出 错 ,但 后 面 这 种 可 能 性 非常 小 ,所 以 一 般 认为 就 是 发 生 了 前 一 种 情况 。 此 时 ,出 错 
的 位 置 由 S,S;S;Si 的 数值 指定 。 
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(5) 当 SS4S:S:S 中 有 4 位 或 5 位 都 不 为 0 时 ,表明 出 错 情况 严重 ,系统 可 能 出 现 故 
障 ,应 检查 系统 硬件 的 正确 性 。 


2.7.3 循环 兄 余 校 验 码 


循环 宛 余 校 验 (Cyclic Redundancy Check) 码 ,简称 CRC 码 ,是 一 种 具有 较 强 检 错 、 纠 错 
能 力 的 校 验 码 ,常用 于 外 存储 器 的 数据 校 验 , 在 计算 机 通信 中 也 被 广泛 采用 。 在 数据 传输 
中 ,奇偶 校 验 码 是 在 每 个 字符 信息 后 增加 一 位 奇偶 校 验 位 来 进行 数据 校 验 的 ,这 样 对 大 批量 
传输 的 数据 进行 校 验 时 ,会 增加 大 量 的 额外 开销 ,尤其 是 在 网 络 通信 中 ,传输 的 数据 信息 都 
是 二 进 制 比特 流 , 因 而 没有 必要 将 数据 再 分 解 成 一 个 个 字符 ,这样 也 就 无 法 采用 奇偶 校 验 
码 ,因此 ,通常 采用 CRC 码 进 行 校 验 。 

前 面 所 介绍 的 奇偶 校 验 码 和 海 明 校 验 码 都 是 以 奇偶 检测 为 手段 的 ,而 循环 宛 余 校 验 码 
则 是 通过 某 种 数学 运算 来 建立 数据 和 校 验 位 之 间 的 约定 关系 。 因 为 CRC 码 的 编码 原理 复 
杂 , 这 里 仅 对 其 编码 方式 和 实现 过 程 作 简单 介绍 ,而 不 详细 进行 数学 推导 。 

1. CRC 码 的 检 错 方法 

假设 要 进行 校 验 的 数据 信息 M(xz) 为 一 个 位 的 二 进 制 数 据 ,将 M(x) 左 移 & 位 后 ,用 
一 个 约定 的 生成 多 项 式 G(x) 相 除 ,G(x) 是 一 个 十 1 位 的 二 进 制 数 , 相 除 后 得 到 的 & 位 余 
数 就 是 校 验 位 。 这 些 校 验 位 拼接 到 M(z) 的 位 数据 后 面 ,形成 一 个 nn 十 k 位 的 代码 , 称 这 
个 代码 为 循环 宛 余 校 验 码 (CRC 码 ) ,也 称 (n 十 &,) 码 ,如 图 2.7 所 示 。 一 个 CRC 码 一 定 能 
被 生成 多 项 式 整 除 ,所 以 当 数 据 和 校 验 位 一 起 送 到 接收 端 后 ,只 要 将 接收 到 的 数据 和 校 验 位 
用 同样 的 生成 多 项 式 相 除 ,如 果 正 好 除 尽 ,表明 没有 发 生 错误 ; 若 除 不 尽 , 则 表明 某 些 数据 位 
发 生 了 错误 。 















































数据 wm 位 ) |， 校 验 位 (位 ) 
CRC 码 (n+k 位 ) 

















2.7 ”CRC 码 的 组 成 


2. 校 验 位 的 生成 

下 面 用 一 个 例子 来 说 明 校 验 位 的 生成 过 程 。 假 设 要 传送 的 数据 信息 为 100011 ,数据 信 
息 位 数 n==6, 报 文 多 项 式 为 M(x) 二 x 十 x 十 1。 若 约定 的 生成 多 项 式 为 G(x)= 二 x 十 1, 即 生 
成 多 项 式 位 数 为 4 位, 则 校 验 位 位 数 & 二 3。 生 成 校 验 位 时 ,用 xz?M(z) 除 以 G(x) , 相 除 时 采 
用 “ 模 2 运算 ”的 多 项 式 除法 。 模 2 运算 时 不 考虑 加 法 进位 和 减法 借 位 。 进 行 模 2 除法 时 ， 
上 商 的 原则 是 : 当 部 分 余数 首位 是 1 时 上 商 为 1, 反 之 上 商 为 0。 然 后 按 模 2 相 减 原则 求 得 
最 高 位 后 面 几 位 的 余数 。 这 样 当 被 除数 逐步 除 完 时 ,最 后 的 余数 位 数 比 除数 少 一 位 。 得 到 
的 余数 就 是 校 验 码 ,此 例 中 最 终 的 余数 有 3 位。 

图 2.8 说 明 利用 “ 模 2” 多 项 式 除法 计算 z*M(z) 二 G(xz) 的 过 程 。 

MO) Gz = (DD = 让 1 

图 2.8(a) 计 算出 的 校 验 位 为 111,CRC 码 为 100011 111。 如 果 要 检查 CRC 码 ,可 将 

CRC 码 用 同一 个 多 项 式 相 除 , 若 余数 为 0, 则 说 明 无 错 ; 若 余 数 不 为 0, 则 说 明 有 错 。 例如 ， 


发 据 的 所 可 级 表示 


100111 100111 101110 
1001 |100011000 1001 |100011111 1001 |101011111 
1001 1001 1001 
0011 0011 0111 
0000 0000 0000 
0111 0111 1111 
0000 0000 1001 
1110 1111 1101 
1001 1001 1001 
1110 1101 1001 
1001 1001 1001 
1110 1001 0001 
1001 1001 0000 
111 000 001 
(a) 计算 校 验 位 (b) 余数 为 0， 数 据 正确 (c) 余数 不 为 0， 数 据 不 正确 








图 2.8 CRC 的 校 验 位 计算 及 验证 


若 接收 方 的 CRC 码 与 发 送 方 一 致 , 即 为 100011 111 时 ,用 同一 个 多 项 式 相 除 后 余数 为 0, 如 
图 2.8(b) 所 示 ; 若 接收 方 的 CRC 码 有 一 位 出 错 而 变 为 101011 111 时 ,用 同一 个 多 项 式 相 除 
后 余数 不 为 0, 如 图 2.8(c) 所 示 。 

3. CRC 码 的 纠 错 

当 接 收 方 将 收 到 的 CRC 码 用 约定 的 生成 多 项 式 GCz) 去 除 ,发 现 余数 不 为 0 时 ,需要 判 
断 出 错 的 位 置 。 不 同 的 出 错位 置 其 余数 不 同 ,而 且 对 于 不 同 的 码 字 ,在 确定 的 码 制 与 生成 多 
项 式 下 ,只 要 出 错位 置 相同 , 则 余数 一 定 相 同 。 例 如 , 表 2. 10 给 出 了 (7,4) 循 环 码 中 两 种 不 
同 的 码 字 , 其 中 加 粗 的 是 出 错位 。 可 以 看 出 其 出 错位 置 与 余数 的 关系 是 相同 的 。 如 果 CRC 
码 中 有 一 位 出 错 ,用 特定 的 G(z) 进 行 模 2 除 , 则 会 得 到 一 个 不 为 0 的 余数 。 若 对 余数 补 
0 后 继续 除 下 去 , 则 会 出 现 一 个 有 趣 的 现象 : 各 次 余数 将 会 按照 一 个 特定 的 顺序 循环 。 如 
在 表 2. 10 所 示 的 例子 中 , 若 将 第 7 位 出 错时 对 应 的 余数 001 后 面 补 0, 继续 再 除 一 次 , 则 会 
得 到 新 余数 010 ,在 010 后 补 0 ,继续 再 除 一 次 , 则 会 得 到 下 一 个 余数 100, 如 此 继续 下 去 , 依 
次 得 到 011,110,111,… ,反复 循环 。 这 是 为 什么 称 之 为 “循环 ”元 余 码 的 由 来 。 


表 2.10 码 字 ,余数 和 出 错位 的 关系 
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在 网 络 通信 中 ,通常 数据 位 数 n 相当 大 ,由 几 千 个 二 进位 构成 一 帧 数据 ,因此 ,通常 使 用 
CRC 码 来 检测 错误 ,发 现 错误 则 告知 发 送 方 要 求 重 发 ,不 用 CRC 来 纠正 错误 。 因 此 ,只 要 
在 接收 方 用 约定 的 生成 多 项 式 进行 模 2 除 后 判断 余数 是 否 为 0 就 行 了 。 


2.8 本 章 小 结 


程序 被 转换 为 机 器 代码 后 ,数据 总 是 由 指令 来 处 理 , 对 指令 来 说 数据 就 是 一 串 0/1 序 
列 。 根 据 指令 的 类 型 ,对 应 的 0/1 序列 可 能 是 一 个 无 符号 整数 ,或 是 带 符号 整数 ,或 是 浮 点 
数 , 或 是 一 个 位 串 ( 即 非 数值 数据 ,如 逻辑 值 或 ASCII 码 或 汉字 内 码 等 )。 无 符号 数 是 正 整 
数 , 用 来 表示 地 址 等 ; 带 符号 整数 一 般 用 补 码 表示 ; 浮 点 数 表示 实数 ,大 多 用 IEEE 754 标准 
表示 。 还 有 一 种 是 用 二 进 制 表示 的 十 进 制 数 , 称 为 BCD 码 ,一 般 用 8421 码 表示 。 

数据 的 宽度 通常 以 字 节 (Byte) 为 基本 单位 表示 ,数据 长 度 单位 (如 MB、GB、TB 等 ) 在 
表示 数据 容量 和 带宽 等 不 同 对 象 时 所 代表 的 大 小 不 同 。 数 据 的 排列 有 大 端 和 小 端 两 种 排列 
方式 。 大 端 方式 以 MSB 所 在 地 址 为 数据 的 地 址 , 即 给 定 地 址 处 存放 的 是 数据 最 高 有 效 字 
节 ; 小 端 方式 以 LSB 所 在 地 址 为 数据 的 地 址 , 即 给 定 地 址 处 存放 的 是 数据 最 低 有 效 字 节 。 

常用 数据 校 验方 式 有 3 种 。 奇 偶 校 验 根据 数据 的 奇偶 性 变化 来 检 错 ,只 能 检测 奇数 个 
错 。 海 明 校 验 是 分 组 奇偶 校 验 ,SEC 只 能 纠正 一 位 错 ,SEC-DED 可 纠正 一 位 错 并 检测 两 位 
错 。 循 环 元 余 码 校 验 通过 某 种 数学 运算 在 数据 和 校 验 位 之 间 建 立 约定 关系 , 它 可 以 对 较 长 
数据 块 进行 校 验 而 不 增加 校 验 位 开销 ,因此 ,主要 用 于 对 大 批量 数据 的 存储 或 传输 校 验 。 


习 题 
1. 给 出 以 下 概念 的 解释 说 明 。 
真 值 机 器 数 数值 数据 非 数 值 数据 无 符号 整数 
带 符 号 整数 定点 数 原 码 反 码 补 码 
变形 补 码 浮 点 数 尾数 阶 码 移 码 
溢出 下 溢 上 溢 规格 化 数 左 规 
右 规 非 规 格 化 数 机 器 零 非 数 (NaN) BCD 码 
逻辑 数 ASCII 码 汉字 输入 码 汉字 内 码 机 器 字 长 
大 端 方式 小 端 方式 字 地 址 边界 对 齐 检 错 
纠 错 码 距 奇偶 校 验 海 明 码 循环 元 余 校 验 (CRC) 


最 高 有 效 位 或 最 高 有 效 字 节 (MSB) 最低 有 效 位 或 最 低 有 效 字 节 (LSB) 

2. 简单 回答 下 列 问题 。 

(1) 为 什么 计算 机 内 部 采用 二 进 制 表示 信息 ?既然 计算 机 内 部 所 有 信息 都 用 二 进 制 表示 ,为 什么 还 要 
用 到 十 六 进 制 或 八进制 数 ? 

(2) 常用 的 定点 数 编码 方式 有 哪 几 种 ? 通常 它们 各 自用 来 表示 什么 ? 

(3) 为 什么 现代 计算 机 中 大 多 用 补 码 表示 带 符号 整数 ? 

(4) 在 浮 点 数 的 基数 和 总 位 数 一 定 的 情况 下 , 浮 点 数 的 表示 范围 和 精度 分 别 由 什么 决定 ? 两 者 如 何 相 
互 制约 ? 

(5) 为 什么 要 对 浮 点 数 进行 规格 化 ? 有 哪 两 种 规格 化 操作 ? 

(6) 为 什么 有 些 计 算 机 中 除了 用 二 进 制 外 还 用 BCD 码 来 表示 数值 数据 ? 


( 


发 据 的 所 可 级 表示 


7) 为 什么 计算 机 处 理 汉字 时 会 涉及 不 同 的 编码 (如 输入 码 、 内 码 、 字 模 码 )? 这 些 编码 中 哪些 用 二 进 


制 编码 ,哪些 不 用 二 进 制 编码 ? 为 什么 ? 


3 
( 
( 
( 
( 
4 


5 





. 实现 下 列 各 数 的 转换 。 

1) (25. 8125)w = (7)s= (7) s= (7?) xs 

2) (101101.011)2= (w= (7) s= (7?) = (7) a 

3) (0101 1001 0110. 0011)sa 一 〈?)io 一 〈?) :一 〈?) is 

4) (4E. C)u6 一 〈?)io 一 (?) 2 

. 假定 机 器 数 为 8 位 (1 位 符号 ,7 位 数值 ), 写 出 下 列 各 二 进 制 数 的 原 码 表示 。 

上 0. 1001 ,一 0. 1001 ,十 1.0, 一 1.0, 十 0. 010100, 一 0. 010100, 十 0, 一 0 

. 假定 机 器 数 为 8 位 (1 位 符号 ,7 位 数值 ), 写 出 下 列 各 二 进 制 数 的 补 码 和 移 码 表示 。 
上 1001 ,一 1001, 十 1, 一 1, 十 10100, 一 10100, 十 0, 一 0 











6. 已 知 [z]}, 求 z。 

(1) [z]# 王 1.1100111 (2) [xz]# =10000000 

(3) [z]# 王 0.1010010 (4) [z]# 王 11010011 

7. 假定 一 台 32 位 字 长 的 机 器 中 带 符号 整数 用 补 码 表示 , 浮 点 数 用 IEEE 754 标准 表示 ,寄存 器 Rl1 和 
R2 的 内 容 分 别 为 R1: 00 00 10 8BH,R2: 80 80 10 8BH。 不同 指令 对 寄存 器 进行 不 同 的 操作 ,因而 ,不 同 
指令 执行 时 寄存 器 内 容 对 应 的 真 值 不 同 。 假 定 执行 下 列 运算 指令 时 ,操作 数 为 寄存 器 R1 和 R2 的 内 容 , 则 
R1 和 R2 中 操作 数 的 真 值 分 别 为 多 少 ? 


( 
( 
( 
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1) 无 符号 数 加 法 指令 。 

2) 带 符号 整数 乘法 指令 。 

3) 单 精度 浮 点 数 减法 指令 。 

. 假定 机 器 M 的 字 长 为 32 位 ,用 补 码 表示 带 符号 整数 。 表 2. 11 第 一 列 给 出 了 在 机 器 M 上 执行 的 


C 语言 程序 中 的 关系 表达 式 , 请 参照 已 有 的 表 栏 内 容 完成 表 中 后 三 栏 内 容 的 填写 。 





表 2.11 题 8 用 表 
关系 表达 式 运算 类 型 结果 说 明 
0==0U 
一 1<0 
一 1<0U 无 符号 整数 0 11…1B (23—1)>00.…0B(0) 
2 147 483 647> 一 2 147 483 647 一 1 带 符号 整数 1 011…1B (231 一 1) 之 100…0B (一 231) 


2 147 483 647U 二 一 2 147 483 647 一 1 
2 147 483 647> (int)2 147 483 648U 
一 > 一 9 

(Cunsigned) 一 1 二 一 2 











注 : 表 中 第 4 和 第 5 行 的 一 2 147483 647 一 1 没有 写成 一 2 147 483 648 ,因为 编译 器 处 理 一 个 形 如 一 z 的 表达 式 时 , 通 
常会 先 读 取 表达 式 zx, 然后 对 zx 取 负 。 当 z= 二 2 147 483 648 时 , 因为 用 32 位 补 码 无 法 表示 z, 所 以 ,写成 
一 2 147 483 648 时 可 能 会 发 生意 想不到 的 结果 。 
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. 以 下 是 一 个 C 语言 程序 ,用 来 计算 一 个 数组 a 中 每 个 元 素 的 和 。 当 参数 len 为 0 时 ,返回 值 应 该 是 


0, 但 是 在 机 器 上 执行 时 , 却 发 生 了 存储 器 访问 异常 。 请 问 这 是 什么 原因 造成 的 ,并 说 明 程 序 应 该 如 何 


修改 。 


float sum elements (float a[],unsigned len) 
{ 
int i; 


float result=0; 





计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





for (i=0; i<=len-1; i++) 


result+=al[i]; 


woJ ou 


return result; 


10 } 


10. 设 某 浮 点 数 格式 为 








数 符 | 


阶 码 尾数 











1 位 


5 位 移 码 6 位 补 码 数值 部 分 


其 中 , 移 码 的 偏 置 常数 为 16, 补 码 采 用 一 位 符号 位 ,基数 为 4。 
(1) 用 这 种 格式 表示 下 列 十 进 制 数 : 十 1.75, 十 19, 一 1/8。 

(2) 写 出 该 格式 浮 点 数 的 表示 范围 ,并 与 12 位 定点 补 码 整数 和 定点 补 码 小 数 表示 范围 比较 。 
11. 下 列 几 种 情况 所 能 表示 的 数 的 范围 是 什么 ? 


(1) 16 位 无 符号 整数 。 

(2) 16 位 原 码 定点 小 数 。 
(3) 16 位 补 码 定点 小 数 。 
(4) 16 位 补 码 定点 整数 。 


(5) 下 述 格 式 的 浮 点 数 ( 基 数 为 2, 移 码 的 偏 置 常数 为 128) : 








数 符 





阶 码 尾数 











1 位 


8 位 移 码 7 位 原 码 数 值 部 分 


12. 以 IEEE 754 单 精 度 浮 点 数 格式 表示 下 列 十 进 制 数 。 十 1.75, 十 19, 一 1/8,258。 
13. 设 一 个 变量 的 值 为 4098 ,要 求 分 别 用 32 位 补 码 整 数 和 IEEE 754 单 精度 浮 点 格式 表示 该 变量 ( 结 
果 用 十 六 进 制 表示 ) ,并 说 明 哪 段 二 进 制 序列 在 两 种 表示 中 完全 相同 ,为 什么 会 相同 ? 
14. 设 一 个 变量 的 值 为 一 2 147 483 647 ,要 求 分 别 用 32 位 补 码 整 数 和 IEEE 754 单 精度 浮 点 格式 表示 
该 变量 (结果 用 十 六 进 制 表 示 ) ,并 说 明 哪 种 表示 其 值 完全 精确 , 哪 种 表示 的 是 近似 值 。 
15. 表 2.12 给 出 了 有 关 IEEE 754 浮 点 格式 表示 中 一 些 重要 的 非 负 数 的 取 值 , 表 中 已 经 有 最 大 规格 化 
数 的 相应 内 容 , 要 求 填 人 其 他 浮 点 数 格式 的 相应 内 容 。 


表 2.12 题 15 用 表 








单 精 度 双 精 度 
项 目 阶 尾数 以 2 的 军 次 | 以 10 的 宕 次 以 2 的 寡 次 以 10 的 寡 次 
表示 的 值 表示 的 值 表示 的 值 表示 的 值 

0 
和 
最 大 规格 化 数 11111110 1…11 |(2 一 2-23)X2127| 3.4X10% (全 2》 人 加 0 1. 8X 10308 
最 小 规格 化 数 
最 大 非 规格 化 数 
最 小 非 规格 化 数 
08 
NaN 

















16. 已 知 下 列 字 编码 : A 二 100 0001,a 








110 0001,0 一 011 0000, 求 E.ef.7.G、Z.5 的 7 位 ASCII 码 和 





第 一 位 前 加 入 奇 校 验 位 后 的 8 位 编码 。 


17. 假定 在 一 个 程序 中 定义 了 变量 z+、y 和 i, 其 中 ,x 和 y 是 float 型 变量 (用 IEEE 754 单 精度 浮 点 数 


发 据 的 所 可 级 表示 








表示 ) ,i 是 16 位 short 型 变量 (用 补 码 表示 )。 程 序 执行 到 某 一 时 刻 ,z 一 一 0. 125、y 二 7.5,i 王 100, 它 们 都 
被 写 到 了 主 存 ( 按 字 节 编 址 ) ,其 地 址 分 别 是 100、108 和 112。 请 分 别 画 出 在 大 端 机 器 和 小 端 机 器 上 变量 
Zz,y 和 i 在 内 存 的 存放 位 置 。 

18. 假定 某 计 算 机 的 总 线 采用 奇 校 验 ,每 8 位 数据 有 一 位 校 验 位 , 若 在 32 位 数据 线 上 传输 的 信息 是 
8F 3C AB 96 理 , 则 对 应 的 4 个 校 验 位 应 为 什么 ? 若 接 受 方 收 到 的 数据 信息 和 校 验 位 分 别 为 87 3C AB 96H 
和 0101B, 则 说 明 发 生 了 什么 情况 ,并 给 出 验证 过 程 。 

19. 假定 一 个 16 位 数据 Me Mis Mis Mis Miz Mi Mio Ms Ms M; MsM; M: Ms: M: Mi 为 0101 0001 0100 
0110B, 要 求 写 出 16 位 数据 的 SEC 码 ,并 说 明 SEC 码 如 何 正确 检测 数据 位 Ms 的 错误 。 

20. 假设 要 传送 的 数据 信息 为 100011, 若 约定 的 生成 多 项 式 为 G(x) 二 zx 十 1, 则 校 验 码 为 多 少 ? 假定 
在 接收 端 接收 到 的 数据 信息 为 100010, 说 明 如 何 正确 检测 其 错误 , 写 出 检测 过 程 。 











到 二 
运算 方法 和 运算 部 件 


计算 机 完成 的 功能 通过 执行 程序 来 实现 ,任何 程序 最 终 都 要 转换 为 机 器 指令 。 指 令 中 
包含 的 各 种 算术 逻辑 运算 能 直接 在 硬件 上 执行 ,执行 这 些 运 算 的 硬件 称 为 运算 部 件 。 

本 章 首先 分 析 高 级 语言 和 机 器 指令 中 涉及 的 各 类 运算 ,然后 介绍 这 些 运算 用 到 的 核心 
部 件 一 一 算术 逻辑 单元 (ALU) 的 组 成 与 工作 原理 ,在 此 基础 上 ,对 这 些 运 算 在 计算 机 内 部 
的 实现 算法 和 过 程 进行 详细 说 明 , 最 后 介绍 实现 这 些 运算 的 运算 部 件 。 


3.1 高 级 语言 和 机 器 指令 中 的 运算 


计算 机 硬件 的 设计 目标 来 源 于 软件 需求 ,高 级 语言 中 用 到 的 各 种 运算 ,通过 编译 成 底层 
的 算术 运算 指令 和 逻辑 运算 指令 实现 ,这 些 底 层 运 算 指 令 能 在 机 器 硬件 上 直接 被 执行 。 因 
此 ,在 介绍 运算 部 件 的 设计 之 前 ,有 必要 先 了 解 高 级 语言 程序 和 机 器 指令 所 涉及 的 一 些 运 
算 。 所 有 高 级 语言 的 运算 功能 大 同 小 异 , 某 一 种 语言 能 代表 高 级 语言 的 总 体 情况 ,因此 ,本 
教材 以 C 语言 中 的 运算 为 例 进行 说 明 。 同 样 ,指令 中 所 涉及 的 运算 也 可 用 一 个 特定 的 指令 
系统 来 说 明 ,本 教材 主要 介绍 MIPS 指令 系统 中 的 运算 。 


“3.1.1 C 程 序 中 涉及 的 运算 


加 、 减 、 乘 、 除 等 算术 运算 是 高 级 语言 中 必须 提供 的 基本 运算 ,可 以 有 无 符号 数 的 算术 运 
算 . 带 符号 整数 的 算术 运算 和 浮 点 数 的 算术 运算 。C 语言 中 除了 这 些 算术 运算 以 外 ,还 有 以 
下 几 类 基本 运算 : 按 位 运算 、 人 逻辑 运算 、 移 位 运算 、 位 扩展 和 位 截断 运算 。 

1. 按 位 运算 

C 语 言 中 的 按 位 运算 有 : 符号 | 表示 按 位 OR 运算 ;符号 & 表示 按 位 AND 运算 ;符号 
一 表示 按 位 NOT 运算 ;符号 ^ 表 示 按 位 XOR 运算 。 按 位 运算 的 一 个 重要 运用 就 是 实现 掩 
码 (masking) 操 作 ,通过 与 给 定 的 一 个 位 模式 进行 按 位 与 ,可 以 提取 所 需要 的 位 ,然后 可 以 
对 这 些 位 进行 “ 置 1”“ 清 0”、“1 测试 ”或 “0 测试 ?等 。 这 里 位 模式 被 称 为 掩 码 。 例 如 ,表达 
式 0x0F&.0x8C 的 运算 结果 为 00001100, 即 0x0C。 这 里 通过 掩 码 0xOF 提取 了 一 个 字 节 
0x8C 的 低 4 位。 

2. 逻辑 运算 

C 语 言 中 的 逻辑 运算 有 : 符号 ‖ 表示 OR 运算 ;符号 && 表示 AND 运算 ;符号 ! 表 示 
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NOT 运算 。 这 些 逻 辑 运算 很 容易 和 按 位 运算 混淆 ,事实 上 它们 的 功能 完全 不 同 。 逻 辑 运 算 
是 非 数 值 计 算 ,其 操作 数 只 有 两 个 逻辑 值 : True 和 False, 通 常用 非 0 数 表 示 逻 辑 值 True， 
用 全 0 数 表示 逻辑 值 False; 而 按 位 运算 是 一 种 数值 运算 ,运算 时 将 两 个 操作 数 中 对 应 各 二 
进位 按照 指定 的 逻辑 运算 规则 逐 位 进行 计算 。 

3. 移 位 运算 

C 语 言 中 提供 了 一 组 移 位 运算 。 移 位 操作 有 逮 辑 移 位 和 算术 移 位 两 种 。 逻 辑 移 位 不 考 
虑 符号 位 ,总 是 把 高 ( 低 ) 位 移出 , 低 ( 高 ) 位 补 0。 对 于 无 符号 整数 的 逻辑 左 移 , 如 果 最 高 位 
移出 的 是 1, 则 发 生 溢出 。 因 为 计算 机 内 部 的 带 符号 整数 都 是 用 补 码 表示 的 ,所 以 对 于 带 符 
号 整数 的 移 位 操作 应 采用 补 码 算术 移 位 方式 。 左 移 时 ,高 位 移出 ,低位 补 0, 每 移 一 位 ,如 果 
移出 的 高 位 不 同 于 移 位 后 的 符号 位 , 即 左 移 前 、 后 符号 位 不 同 , 则 发 生 溢出 ; 右 移 时 ,低位 移 
出 ,高 位 补 符号 。 

虽然 C 语言 没有 明确 规定 应 该 采用 逻辑 移 位 还 是 算术 移 位 ,但 是 ,实际 上 许多 机 器 和 
编译 器 都 对 无 符号 整数 采用 逻辑 移 位 方式 ,而 对 带 符号 整数 采用 算术 移 位 方式 。 表 达 式 
Xk 表示 对 数 工 左 移 & 位 。 事 实 上 ,对 于 左 移 来 说 ,逻辑 移 位 和 算术 移 位 的 结果 都 一 样 ,都 
是 丢弃 个 最 高 位 ,并 在 低位 补 & 个 0。 表达 式 x>k 表示 对 数 工 右 移 人 位 。 

每 左 移 一 位 ,相当 于 数值 扩大 一 倍 ,所 以 左 移 可 能 会 发 生 溢出 , 左 移 & 位 ,相当 于 数值 乘 
以 2 ;每 右 移 一 位 ,相当 于 数值 缩小 一 半 , 右 移 & 位 ,相当 于 数值 除 以 2*。 

例 3.1 已 知 32 位 寄存 器 Rl 中 存放 的 变量 zx 的 机 器 数 为 80 00 00 04H, 请 回答 下 列 
问题 。 

(1) 当 z 是 unsigned int 类 型 时 ,x 的 值 是 多 少 ? z/2 的 值 是 多 少 ? z/2 存放 在 R1 中 的 
机 器 数 是 什么 ? 2z 的 值 是 多 少 ? 2z 存放 在 R1 中 的 机 器 数 是 什么 ? 

(2) 当 z 是 signed int 类 型 时 ,z 的 值 是 多 少 ? z/2 的 值 是 多 少 ? z/2 存放 在 R1 中 的 机 
器 数 是 什么 ? 2z 的 值 是 多 少 ? 2z 存放 在 R1 中 的 机 器 数 是 什么 ? 

解 : (1) 当 工 是 unsigned int 类 型 时 ,x 是 无 符号 数 , 机 器 数 80 00 00 04H 的 真 值 是 

十 1000 0000 0000 0000 0000 0000 0000 0100B 王 23 十 22 

对 于 z/2 的 情况 : 

一 方面 ,根据 xz 的 真 值 求 得 zx/2 的 值 为 (2 十 22)/2 一 2 十 2; 另 一 方面 ,z/2 的 机 器 数 
可 通过 对 x 逻辑 右 移 一 位 得 到 ,因此 ,z/2 存放 在 R1 中 的 机 器 数 是 

0100 0000 0000 0000 0000 0000 0000 0010=40 00 00 02H 

由 上 述 机 器 数 得 z/2 的 真 值 为 2” 十 2。 因 此 ,根据 z 的 真 值 求 出 的 z/2 的 值 与 对 z 的 
机 器 数 逻 辑 右 移 得 到 的 z/2 的 值 是 一 样 的 。 

对 于 2z 的 情况 : 

一 方面 ,根据 xz 的 真 值 求 得 2z 的 值 为 (2 十 2 ) X2 王 22 十 2; 另 一 方面 ,2z 的 机 器 数 
通过 对 xz 逻辑 左 移 一 位 得 到 ,因此 ,2z 存放 在 R1 中 的 机 器 数 是 

0000 0000 0000 0000 0000 0000 0000 1000=00 00 00 08H 
由 上 述 机 器 数 得 2z 的 真 值 为 2” 二 8。 显 然 ,2” 十 2 不 等 于 8, 说 明 结 果 溢 出 。 
实际 上 ,对 x 左 移 时 ,移出 的 一 位 为 1, 表 明 有 效 数 据 被 丢弃 ,结果 将 会 溢出 ,导致 根据 
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工 的 真 值 求 出 的 2z 与 由 xz 逻辑 左 移 得 到 的 2z 的 值 不 一 样 。 其 原因 在 于 2z 的 值 (2” 十 2*) 
超出 了 最 大 可 表示 值 (2” 一 1) ,无 法 用 32 位 表示 。 
(2) 当 工 是 signed int 类 型 时 ,zx 是 带 符号 整数 ,机 器 数 80 00 00 04HH( 用 二 进 制 补 码 表 
示 ) 为 1000 0000 0000 0000 0000 0000 0000 0100。 
根据 由 补 码 求 真 值 的 简便 方法 “ 若 符号 位 为 1, 则 真 值 的 符号 为 负 , 其 数值 部 分 的 各 位 
由 补 码 中 相应 各 位 取 反 后 末尾 加 1 所 得 .” 得 到 zx 的 真 值 为 
一 0111 1111 1111 1111 1111 1111 1111 1100B 一 一 (23 一 22) 
对 于 z/2 的 情况 : 
一 方面 ,根据 zx 的 真 值 可 求 得 zx/2 的 值 为 一 (23 一 22)/2 《22% 一 2)3 另 一 方面 ,z/2 
的 机 器 数 可 通过 对 z 算术 右 移 一 位 得 到 ,因此 ,zx/2 存放 在 Rl 中 的 机 器 数 是 
1100 0000 0000 0000 0000 0000 0000 0010=C0 00 00 02H 
由 上 述 机 器 数 得 z/2 的 真 值 为 
一 0011 1111 1111 1111 1111 1111 1111 1110B 一 一 (22 一 2) 
由 此 可 见 , 由 xz 的 真 值 求 出 的 x/2 与 由 工 的 机 器 数 算术 右 移 一 位 得 到 的 zx/2 是 一 样 的 。 
对 于 2z 的 情况 : 
一 方面 ,根据 z 的 真 值 求 得 2z 的 值 为 一 (2” 一 2*) X2 (22 一 22); 另 一 方面 ,2z 的 
机 器 数 可 由 xz 算术 左 移 一 位 得 到 ,因此 ,2z 存放 在 R1 中 的 机 器 数 是 
0000 0000 0000 0000 0000 0000 0000 1000=00 00 00 08H 
由 上 述 机 器 码 得 2z 的 真 值 为 2 一 8。 显 然 ,一 (22 一 2 ) 不 等 于 8, 说 明 结果 溢出 。 
实际 上 ,对 并 左 移 时 ,移出 的 1 不 等 于 左 移 后 的 最 高 位 0, 表 明 有 效 数 据 被 丢弃 ,结果 将 
会 溢出 ,导致 根据 z 的 真 值 求 出 的 2z 与 由 zx 算术 左 移 一 位 得 到 的 2z 的 值 不 一 样 。 其 原因 
在 于 2x 的 真 值 一 (2 一 23) 比 最 小 可 表示 数 一 232 还 要 小 ,无 法 用 32 位 表示 。 
4. 位 扩展 和 位 截断 运算 
C 语 言 中 没有 明确 的 位 扩展 运算 符 , 但 是 在 进行 数据 类 型 转换 时 ,如 果 遇 到 一 个 短 数 向 
长 数 转换 ,就 要 进行 位 扩展 运算 了 。 进 行 位 扩展 时 ,扩展 后 的 数值 应 保持 不 变 。 有 两 种 位 扩 
展 方式 : 0 扩展 和 符号 扩展 。0 扩展 用 于 无 符号 数 ,只 要 在 短 的 无 符号 数 前 面 添 加 足够 的 
0 即 可 。 符号 扩展 用 于 补 码 表示 的 带 符号 整数 。 通 过 在 短 的 带 符号 整数 前 添加 足够 多 的 符 
号 位 来 扩展 。 
考虑 以 下 C 语言 程序 代码 : 














1 short si=-32768; 

2 unsigned short usi=si; 

3 int i=si; 

4 unsigned ui=usi; 

执行 上 述 程序 段 ,并 在 32 位 大 端 方式 机 器 上 输出 变量 si、usi\i、ui 的 十 进 制 和 十 六 进 制 
值 , 可 得 到 各 变量 的 输出 结果 为 


si=-32768 80 00 
usi=32768 80 00 
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i=-32768 FF FF 80 00 
ui=32768 00 00 80 00 


由 此 可 见 , 一 32768 的 补 码 表示 和 32768 的 无 符号 数 表示 具有 相同 的 16 位 0/1 序列 ， 
分 别 将 它们 扩展 为 32 位 后 ,得 到 的 32 位 位 序列 的 高 位 不 同 。 因 为 前 者 是 符号 扩展 ,高 
16 位 补 符号 1, 后 者 是 0 扩展 ,高 16 位 补 0。 

位 截断 发 生 在 将 长 数 转换 为 短 数 时 ,例如 ,对 于 下 列 代码 : 


1 int i=32768; 

2 short si= (short)i; 

3 int j= si; 

在 一 台 32 位 大 端 方式 机 器 上 执行 上 述 代码 段 时 ,第 2 行 要 求 强 行将 一 个 32 位 带 符 号 
整数 截断 为 16 位 带 符号 整数 ,32768 的 32 位 补 码 表示 为 00 00 80 00H ,截断 为 16 位 后 变 成 
80 00H, 它 是 一 32768 的 16 位 补 码 表示 。 再 将 该 16 位 带 符号 整数 扩展 为 32 位 时 ,就 变 成 
了 FF FF 80 00H, 它 是 一 32768 的 32 位 补 码 表示 ,因此 j 为 一 32768。 也 就 是 说 ,原来 的 i 
( 值 为 32768) 经 过 截断 、 再 扩展 后 ,其 值 变 成 了 一 32768 ,不 等 于 原来 的 值 了 。 

从 上 述 例子 可 以 看 出 ,截断 一 个 数 可 能 会 因为 溢出 而 改变 它 的 值 。 因 为 长 数 的 表示 范 
围 远 远大 于 短 数 的 表示 范围 ,所 以 当 一 个 长 数 足够 大 到 短 数 无 法 表示 的 程度 , 则 截断 时 就 会 
发 生 溢出 。 上 述 例子 中 的 32768 大 于 16 位 补 码 能 表示 的 最 大 数 32767 ,所 以 就 发 生 了 截断 
错误 。 这 里 所 说 的 截断 溢出 和 截断 错误 只 会 导致 程序 出 现 意 外 的 计算 结果 ,但 并 不 导致 任 
何 异 常 或 错误 报告 ,因此 ,错误 的 隐蔽 性 很 强 ,需要 引起 注意 。 


“3.1.2 MIPS 指令 中 涉及 的 运算 


高 级 语言 中 的 所 有 运算 都 是 通过 指令 系统 中 的 运算 指令 实现 的 ,一 个 指令 系统 中 涉及 
运算 的 指令 有 很 多 。 表 3.1 列 出 了 MIPS 指令 系统 中 大 部 分 涉及 运算 的 指令 。 

从 表 3. 1 可 以 看 出 ,MIPS 指令 系统 涉及 的 运算 有 按 位 逻辑 运算 、 人 逻辑 移 位 、 算 术 移 位 、 
带 符号 整数 的 加 减 乘除 .无 符号 整数 加 减 乘 除 、 带 符号 整数 的 符号 扩展 、 无 符号 数 的 0 扩展 、 
单 精度 浮 点 数 加 减 乘除 、 双 精度 浮 点 数 加 减 乘 除 等 。MIPS 指令 中 没有 专门 的 算术 左 移 指 
令 。 因 为 对 于 左 移 来 说 ,逻辑 移 位 和 算术 移 位 的 结果 都 一 样 ,都 是 丢弃 上 个 最 高 位 ,并 在 低 
位 补 & 个 0, 所 以 , 带 符号 整数 和 无 符号 整数 的 左 移 都 可 用 逻辑 左 移 指令 实现 。 很 明显 , 利 
用 MIPS 提供 的 这 些 运 算 指令 完全 能 够 实现 C 语言 所 需要 的 各 种 运算 要 求 。 

表 3.1 MIPS 指令 系统 中 涉及 运算 的 部 分 指令 





指令 ， 到 
类 型 指令 名 称 汇编 形式 举例 含义 所 需 运 算 
and and $1,$2,$3 $1=$2& $3 按 位 与 
or or $1,$2,$3 $1= $2|$3 按 位 或 
逻辑 nor nor $1,$2,$3 $1=~($2|$3) 按 位 或 非 
2 and immediate andi $1,$2,100 $1= $2&100 按 位 与 
运算 or immediate ori $1,$2,100 $1= $2|100 按 位 或 
shift left logical sll $1,$2,10 $1= $2<<10 逻辑 左 移 
shift right logical srl $1,$2,10 $1= $2>>10 逻辑 右 移 

















计算 机 组 成 与 系统 结 欧 (种 2 版 ) 



































续 表 

指令 ~ 
类 型 指令 名 称 汇编 形式 举例 含义 所 需 运 算 

shift right arithmetic sra $1,$2,10 $1= $2>>10 算术 右 移 

add add $1,$2,$3 $1= $2+$3 整数 加 ( 判 溢出 ) 

subtract sub $1,$2,$3 $1=$2— $3 整数 减 ( 判 溢出 ) 

add immediate addi $1,$2,100 $1= $2++100 符号 扩展 .整数 加 ( 判 溢出 

sub immediate subi $1,$2,100 $1= $2—100 符号 扩展 .整数 减 ( 判 溢出 
定点 add unsigned addu $1,$2,$3 $1= $2+$3 整数 加 (不 判 溢出 ) 
算术 subtract unsigned subu $1,$2,$3 $1= $2—$3 整数 减 (不 判 溢出 ) 
运算 * | add immediate unsigned | addiu $1,$2,100 | $1 一 $2 十 100 0 扩展 ,整数 加 (不 判 溢出 ) 

multiply mult $2,$3 Hi, Lo= $2X $3 带 符号 整数 乘 

multiply unsigned multu $2,$3 Hi, Lo= $2X $3 无 符号 整数 乘 

divide div $2,$3 Lo= $2 $3 带 符号 整数 除 

Hi= $2 mod $3 Lo 二 商 ， Hi 二 余数 
divide unsigned divu $2,$3 Lo= $2 $3 无 符号 整数 除 
Hi= $2 mod $3 Lo 二 商 ，Hi 二 余数 

load word lw $1,100( $2) $1 二 mem[ $2 十 100] | 符号 扩展 并 整数 加 

store word sw $1,100( $2) mem[ $2 十 100] 二 $1 | 符号 扩展 并 整数 加 
定点 | load half unsigned lhu $1,100( $ 2) $1 二 mem[ $2 十 100] | 符号 扩展 并 整数 加 ,0 扩展 
数据 | store half sh $1,100($2) mem[ $2 十 100] 二 $1 | 符号 扩展 并 整数 加 ,符号 扩展 
传送 | load byte unsigned lbu $1,100($2) $1 二 mem[ $2 十 100] | 符号 扩展 并 整数 加 ,0 扩展 

store byte sb $1,100($2) mem[ $2 十 100] 二 $1 | 符号 扩展 并 整数 加 ,符号 扩展 

load upper immediate lui $1,100 $1=100X2!'s 逻辑 左 移 16 位 

FP add single add.s $f2, $f4, $16 | $f2= $f{4+ $f6 单 精 度 浮 点 加 

FP subtract single sub.s $f2, $f4, $16 | $f2= $f4— $f6 单 精 度 浮 点 减 

FP multiply single mul.s $f2, $f4, $16 | $f2= $1{4X $16 单 精度 浮 点 乘 
浮 点 FP divide single div.s $f2, $f4, $f6 | $f2= $f4=* $f6 单 精度 浮 点 除 
算术 FP add double add.d $f2, $14, $16 | $f2= $14+ $16 双 精 度 浮 点 加 
运算 FP subtract double sub.d $f2, $f4, $16 | $f2= $14— $16 双 精 度 浮 点 减 

FP multiply double mul.d $f2, $14, $f6 | $f2= $14X $16 双 精 度 浮 点 乘 

FP divide double div.d $f2, $f4, $16 | $f2= $f4 $16 双 精 度 浮 点 除 
浮 点 load word corp. 1 lwcl $f1,100( $ 2) $ 身 二 mem[ $2 十 100] | 符号 扩展 并 整数 加 
store word corp. 1 swcl $ 介 ,100($2) | mem[ $2 十 100]= $f | 符号 扩展 并 整数 加 

注 : add 和 addu 指令 的 执行 结果 相同 ,只 是 add 指令 需要 检测 是 否 发 生 溢出 ,而 addu 指令 无 须 判断 溢出 。addi 和 


addiu 除 了 在 溢出 判断 上 有 差别 外 ,立即 数 的 扩展 也 有 差别 ,addi 中 的 立即 数 被 看 成 带 符号 整数 ,采用 符号 扩展 ,而 addiu 
中 的 立即 数 被 看 成 无 符号 数 , 采 用 0 扩展 。 减 法 的 情况 与 加 法 一 样 ,而 乘 、 除 法 指令 都 不 判断 溢出 (通过 新 增 的 伪 指 令 来 


实现 溢出 判断 ) ,但 区 分 无 符号 数 和 带 符号 整数 的 乘 / 除 运算 。 


3.2 基本 运算 部 件 


一 般 情况 下 ,用 一 个 专门 的 算术 逻辑 部 件 (ALU) 来 完成 基本 逻辑 运算 和 定点 数 加 减 运 
算 , 各 类 定点 乘除 运算 和 浮 点 数 运算 则 可 利用 加 法 器 或 ALU 和 移 位 器 来 实现 ,因此 基本 的 
运算 部 件 是 加 法 器 .ALU 和 移 位 器 ,ALU 的 核心 部 件 是 加 法 器 。 
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3.2.1 串 行进 位 加 法 器 
全 加 器 用 来 实现 两 个 本 位 数 加 上 低位 进位 生成 一 位 本 位 和 以 及 一 位 向 高 位 的 进位 。 第 
i 位 的 加 法 运算 是 指 第 i 位 的 加 数 X;、Y; 和 低位 来 的 进位 Ci 三 者 相 加 ,得 到 本 位 和 F; 和 
第 i 位 的 进位 输出 C;。 
F; 和 Ci 的 逻辑 表达 式 如 下 : 
1 
C; = XIC 十 YC XY; 
F.C; 被 分 别称 为 “全 加 和 ”和 “全 加 进位 *”。 图 3. 1 和 图 3. 2 分 别 是 “全 加 和 ”和 “全 加 
进位 ?生成 电路 ,从 图 3. 2 可 看 出 ,进位 C;_1 到 C; 的 延迟 是 两 级 门 。 


Ci 


Ci | 
总 
h 
DD a 


图 3.1 全 加 和 到 的 生成 图 3.2 全 加 进位 C; 的 生成 


(3-1) 











图 3. 3 是 全 加 器 的 符号 表示 。 将 交 个 全 加 器 相连 可 得 ”位 加 法 器 ,如 图 3.4 所 示 的 加 
法 器 实现 了 两 个 即位 二 进 制 数 X 王 XXX …X 和 Y 二 YY,_1…Y! 逐 位 相 加 的 功能 ,得 到 
的 二 进 制 和 为 下 二 F,F,_1…F ,进位 输出 为 C,。 例 如 , 当 X=11…11,Y 王 00…01 时 ,最 后 
的 输出 为 ==00…00 且 C, 二 1。 由 于 只 有 有 限 位 数 ,高 位 自动 丢失 ,所 以 实际 上 是 在 模 2” 
运算 系统 下 的 加 法 运算 ,可 以 实现 nn 位 无 符号 数 的 加 法 入 位 补 码 加 法 。 

对 于 图 3.4 所 示 的 nn 位 加 法 器 ,XX 与 Y 逐 位 相 加 ,位 间 进 位 串 行 传送 ,因此 称 为 串 行 进 
位 方式 。 我 们 知道 ,一块 小 石头 扔 进 平静 的 水 中 , 泛 起 的 波纹 会 向 外 一 圈 一 圈 逐 步 扩散 , 串 
行进 位 加 法 器 中 最 低 进位 C, 就 像 一 块 小 石头 , 它 把 进位 逐步 从 低位 扩展 到 最 高 位 ,所 以 ,这 
种 串 行进 位 加 法 器 也 被 称 为 行 波 进位 加 法 器 (Carry Ripple Adder,CRA) 。 















































F Fs Ai 局 
1 Ci C Ci G2 Ci Go 
一 一 |] FA | 一 FA 一 FA ~— 一 FA 一 
Bf XA, ] Xt Yn A 
3.3 全 加 器 符号 图 3.4 位 串 行进 位 加 法 器 


这 种 结构 所 用 元 件 较 少 ,但 进位 传递 时 间 较 长 。 从 图 3. 2 可 以 看 出 ,全 加 器 内 从 进位 输 
入 到 进位 输出 , 共 经 过 两 级 门 延迟 ,所 以 ,n 位 串 行 加 法 器 从 C。 到 C, 的 延迟 时 间 为 2” 级 门 
延迟 。 假 定 一 个 异 或 门 为 3 级 门 延迟 , 则 最 后 一 位 和 数 F, 的 延迟 时 间 为 2n 十 1 级 门 延迟 。 
加 法 运算 时 间 随 两 个 加 数位 数 n 的 增加 而 增加 。 当 n 较 大 时 , 串 行 进位 的 加 法 器 速度 将 显 
著 变 慢 。 
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前 面 说 过 ,几乎 所 有 的 算术 运算 都 要 用 到 ALU 或 加 法 器 ,ALU 的 核心 还 是 加 法 器 , 因 
此 要 提高 运算 速度 ,加 法 器 的 速度 非常 关键 。 由 于 串 行 进位 加 法 器 速度 慢 的 主要 原因 是 进 
位 按 串 行 方式 传递 ,高 位 进位 依赖 低位 进位 。 为 了 提高 加 法 器 的 速度 ,必须 尽量 避免 进位 之 
间 的 依赖 关系 。 
3.2.2 并 行进 位 加 法 器 

由 全 加 器 公式 (3-1) 可 知 , 对 于 一 个 4 位 加 法 器 ,其 进位 C,、C;、C; 和 C 的 产生 条 件 为 

C = XY (Xi+ YY) 

Cs = XY 十 (Xs + Y2)C, 

= XY (Xs Y) Xi (Xt YY) Xi + Yi)Co 
Cs = XsYs 十 (Xs + Ys)C 
= XsYs 十 (Xs Ys) [XY, 十 (Xs 十 2 ) XiYi 十 (Xs t+Y) (Xi +Y1)Co] 
XsYs 十 (Xs 十 Y: ) XaYs t+ (Xs 十 Ys)(Xs 十 Ya) XiY, 

(Xs t+ Ys) (XstY) Xt Yi)Co 
C= XiYit (XstY)Cs 
XiY4 十 (X4 十 Yi)LXsYs 十 (Xs +tYs) XYs 十 (Xs t+Y) Xs t+ Ya) XY 
(Xs t+ Ys) XtY,) (Xt+Y)Co] 
XiY4 十 (X4 十 Yi)XsYs: + CX t+Y) Xs 十 Ys)X?Y: 
(Xi 十 Yi)(CXs 十 Ys)(Xs 十 Ys)XiY， 
(Xi 十 Yi)(CXs 十 Ys)(CXs 十 Ya)(X; + Y1)Co 

从 以 上 公式 来 看 ,每 个 进位 表达 式 中 都 含有 Xi 十 Y; 和 XiY ,所 以 ,定义 两 个 辅助 函数 
如 下 : 










































































P;= Xi 十 Y， 
G; = XiY; 
P; 称 为 进位 传递 函数 ,其 含义 是 : 当 X;、Y; 中 有 一 个 为 1 时 , 若 有 低位 进位 输入 , 则 一 
定 被 传递 到 高 位 。 这 个 进位 可 看 作 是 低位 进位 越过 本 位 直接 向 高 位 传递 的 。G; 称 为 进位 
生成 函数 ,其 含义 是 : 当 X;、Y; 均 为 1 时 ,不 管 有 无 低位 进位 输入 ,本 位 一 定向 高 位 产生 进 
位 输出 。 
将 P;、G; 代 和 人 前面 Ci 一 C4 式 中 ,可 得 : 
Ci = 一 Ci 十 己 C 
C; = Cs 十 P, Ci 十 PPiCo 
Cs = Cs 十 PC 十 PP: G 十 PP2:PiCo 
C= Ci 十 Pi Gs 十 PP: Gt PPs PC 十 PP， PsPiCo 
从 上 述 表 达 式 可 以 看 出 ,C; 仅 与 X;、Y; 和 Co。 有关, 相互 间 的 进位 没有 依赖 关系 。 只 要 Xi 一 
Xi、 六 一 Y 和 Co 同时 到 达 , 就 可 几乎 同时 形成 C: 一 C, ,并 同时 生成 各 位 的 和 。 
实现 上 述 逻 辑 表 达 式 (3-3) 的 电路 称 为 先行 进位 (也 称 超前 进位 ) 部 件 (Carry 
Lookahead Unit) ,简称 CLA 部 件 。 通 过 这 种 进位 方式 实现 的 加 法 器 称 为 全 先行 进位 加 法 
器 。 因 为 各 个 进位 是 并 行 产 生 的 ,所 以 是 一 种 并 行进 位 加 法 器 。 3.5 为 4 位 CLA 部 件 


(3-2) 


(3-3) 
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和 4 位 全 先行 进位 加 法 器 示意 图 。 
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(a) 4 位 CLA 部 件 
4 位 CLA 部件 
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(b) 4 位 全 先行 进位 加 法 器 
3.5 4 位 CLA 部 件 和 4 位 全 先行 进位 加 法 器 









































由 图 3.5 可 看 出 ,从 X;、Y; 到 产生 P;、G; 需要 1 级 门 延迟 ,从 Pi;、G;、C。 到 产生 所 有 进 
位 Ci 一 C, 需要 2 级 门 延迟 ,产生 全 部 和 需要 1 十 2 十 3 二 6 级 门 延迟 (假定 一 个 异 或 门 等 于 
3 级 门 延迟 )。 所 以 4 位 全 先行 进位 加 法 器 的 关键 路 径 长 度 为 6 级 门 延迟 。 

从 式 (3.3) 可 知 ,更 多 位 数 的 CLA 部 件 只 会 增加 逻辑 门 的 输入 端 个 数 ,而 不 会 增加 门 
的 级 数 ,因此 ,如 果 用 全 先行 进位 方式 构建 更 多 位 数 加 法 器 ,从 理论 上 讲 ,应 该 还 是 6 级 门 延 
迟 。 但 是 由 于 CLA 部 件 中 连 线 数量 和 输入 端 个 数 的 增多 ,使 得 实现 电路 中 需要 具有 大 了 豫 
动 信 号 和 大 扇 人 门 。 因 而 , 当 位 数 较 多 时 ,全 先行 进位 实现 方式 不 太 现实 。 例 如 ,对 于 一 个 
32 位 全 先行 进位 加 法 器 ,其 生成 Cs 的 与 门 和 或 门 有 多 达 30 多 个 输入 端 。 

更 多 位 数 的 加 法 器 可 通过 将 CLA 部 件 或 全 先行 进位 加 法 器 串 接 起 来 实现 ,例如 ,对 于 
16 位 加 法 器 ,可 以 分 成 4 位 一 组 ,组 内 为 4 位 先行 进位 ,组 间 串 行进 位 。 为 了 进一步 提高 加 
法 器 的 运算 速度 ,也 可 以 进一步 采用 组 内 和 组 间 都 并 行 的 进位 方式 。 因 为 两 级 先行 进位 加 
法 器 组 内 和 组 间 都 采用 先行 进位 方式 ,其 延迟 和 加 法 器 的 位 数 没有 关系 ,不 会 随 着 位 数 的 增 
加 而 延长 时 间 。 所 以 ,计算 机 内 部 大 多 采用 两 级 或 多 级 先行 进位 加 法 器 。 


3.2.3 带 标 志 加 法 器 


nn 位 无 符号 数 加 法 器 只 能 用 于 两 个 位 二 进 制 数 相 加 ,不 能 进行 无 符号 整数 的 减 运算 ， 
也 不 能 进行 带 符号 整数 的 加 / 减 运 算 。 要 能 够 进行 无 符号 整数 的 加 / 减 运算 和 带 符号 整数 的 
加 / 减 运算 ,还 需要 在 无 符号 数 加 法 器 的 基础 上 增加 相应 的 逻辑 门 电路 ,使 得 加 法 器 不 仅 能 
计算 和 / 差 ,还 要 能 够 生成 相应 的 标志 信息 。 图 3. 6 是 带 标志 加 法 器 实现 电路 示意 图 ,其 中 
图 3. 6(a) 中 是 符号 表示 ,图 3.6(b) 中 给 出 用 全 加 器 构成 的 实现 电路 。 
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(a) 带 标志 加 法 器 符号 (b) 带 标志 加 法 器 的 逻辑 电路 


图 3.6 用 全 加 器 实现 位 带 标志 加 法 器 的 电路 










































































如 图 3.6 所 示 ,溢出 标志 的 逻辑 表达 式 为 OF 一 C, 中 C, ;符号 标志 就 是 和 的 符号 , 即 
SF 二 ,1 ; 零 标志 ZF 二 1 当 且 仅 当 F=0; 进 位 / 借 位 标志 CF 二 Cout@Cin, 即 当 Cin 二 0 时 ， 
CF 为 进位 Cout, 当 Cin=1 时 ,CF 为 进位 Cout 取 反 。 

需要 说 明 的 是 ,为 了 加 快 加 法 运算 的 速度 ,真正 的 电路 一 定 使 用 多 级 先行 进位 方式 ， 
图 3. 6(b) 主 要 是 为 了 说 明 如 何 从 加 法 运算 结果 中 获得 标志 信息 ,因而 使 用 全 加 器 简化 了 加 
法 器 电路 。 


3.2.4 算术 浸 辑 部 件 


ALU 是 一 种 能 进行 多 种 算术 运算 与 逻辑 运算 的 组 合 逻 辑 电路 ,其 核心 部 件 是 带 标志 加 
法 器 ,多 采用 先行 进位 方式 。 通 常用 图 3. 7 所 示 的 符号 来 表示 。 其 中 A 和 B 是 两 个 ”位 操 
作 数 输入 端 ,Cin 是 进位 输入 端 ,ALUop 是 操作 控制 端 , 用 来 决定 ALU 所 执行 的 处 理 功能 。 
例如 ,ALUop 选择 Add 运算 , ALU 就 执行 加 法 运算 ,输出 的 结果 就 是 A 加 B 之 和 。 
ALUop 的 位 数 决 定 了 操作 的 种 类 ,例如 , 当 位 数 为 3 时 ,ALU 最 多 只 有 8 种 操作 。 

图 3.8 给 出 了 能 够 完成 3 种 运算 “与 “或 "和 “加 法 ”的 一 位 ALU 结构 图 。 其 中 ,一 位 
加 法 用 一 个 全 加 器 实现 ,在 ALUop 的 控制 下 ,由 一 个 多 路 选择 器 (MUX) 选 择 输出 3 种 操 
作 结 果 之 一 。 这 里 有 3 种 操作 ,所 以 ALUop 至 少 要 有 两 位 。 


ALUop 上， Cin 
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TCout 
图 3.7 ALU 符号 图 3.8 一 位 ALU 结构 


ALU 中 也 可 实现 左 ( 右 ) 移 一 位 和 两 位 的 操作 ,当然 也 可 用 一 个 移 位 寄存 器 实现 移 位 。 
但 这 两 种 方式 每 次 都 只 能 固定 移动 一 位 或 两 位 ,有 时 移 位 指令 要 求 一 次 移动 若干 位 ,对 于 这 
种 一 次 左 移 或 右 移 多 位 的 操作 ,通常 用 一 个 做 在 ALU 之 外 的 桶 型 移 位 器 实现 。 桶 形 移 位 
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器 不 同 于 普通 移 位 寄存 器 , 它 利 用 大 量 多 路 选择 器 来 实现 数据 的 快速 移 位 , 移 位 操作 能 够 一 
次 完成 。 在 ALU 外 单独 设置 桶 型 移 位 器 ,还 可 简化 ALU 的 控制 逻辑 ,并 实现 移 位 操作 和 
ALU 操作 的 并 行 性 。 


3.3 定点 数 运算 


从 3.1 节 介 绍 的 有 关 高 级 语言 和 机 器 指令 涉及 的 运算 来 看 ,定点 运算 主要 包括 无 符号 
数 的 按 位 逻辑 运算 .无 符号 数 的 逻辑 移 位 运算 、 无 符号 数 的 位 扩展 运算 和 截断 运算 、 无 符号 
数 的 加 减 乘除 运算 、 带 符号 整数 的 算术 移 位 运算 、 带 符号 整数 的 扩展 运算 和 截断 运算 、 带 符 
号 整数 的 加 减 乘除 运算 等 。 

无 符号 数 的 按 位 逻辑 运算 可 用 逻辑 门 电路 实现 ,无 符号 数 的 逻辑 移 位 运算 可 用 专门 的 
移 位 器 或 斜 送 结果 等 多 种 方式 来 实现 , 带 符号 整数 的 移 位 运算 ,无 符号 数 和 带 符号 整数 的 位 
扩展 运算 和 截断 运算 也 可 用 简单 电路 较 容易 地 实现 。 

因此 ,对 于 无 符号 数 和 带 符号 整数 的 运算 ,本 节 主 要 内 容 是 加 \ 减 ,乘除 运算 以 及 这 些 
运算 所 涉及 的 运算 部 件 。 计 算 机 内 部 带 符号 整数 基本 都 是 用 补 码 表示 的 ,所 以 带 符号 整数 
的 运算 主要 介绍 补 码 运算 。 

浮 点 数 由 一 个 定点 小 数 和 一 个 定点 整数 表示 ,大 多 数 机 器 采用 IEEE 754 标准 来 表示 
浮 点 数 ,IEEE 754 标准 用 定点 原 码 小 数 表示 尾数 ,用 移 码 表示 指数 ,因而 浮 点 数 运算 涉及 原 
码 定 点 小 数 的 加 , 减 、 乘 \ 除 运算 和 移 码 的 加 减 运算 。 因 此 ,本 节 同 时 也 介绍 原 码 定点 小 数 的 
加 \ 减 ,乘除 运算 和 移 码 的 加 减 运 算 。 


3.3.1 补 码 加 减 运算 


车 两 个 补 码 表示 的 n 位 定点 整数 [zj 三 X12 Xo [yj 二 YY ， 则 
[z 十 y]# 和 [z 一 y]# 的 运算 表达 式 如 下 : 
[zyja = [zj# 二 [yj# (mod 2") | 
[z— yj# = [zj# t+[— yj Cmod 2") 
式 (3-4) 的 正确 性 可 以 从 补 码 的 编码 规则 得 到 证 明 。 从 式 (3-4) 中 可 看 出 ,在 补 码 表示 
方式 下 ,无 论 zx.y 是 正 数 还 是 负数 ,加 \ 减 运算 统一 采用 加 法 来 处 理 , 而 且 [Lzji# 和 [y]# 的 符 
号 位 (最 高 有 效 位 MSB) 可 以 和 数值 位 一 起 参与 运算 ,加 、 减 运算 结果 的 符号 位 也 在 求 和 运 
算 中 直接 得 出 ,这 样 ,可 以 直接 用 第 3. 2 节 介 绍 的 加 法 器 来 实现 [zj 十 [yj 和 [xj 十 
[一 yjn#w。 最 终 运算 结果 的 高 位 丢弃 ,保留 低位 ,相当 于 对 和 数 取 模 2"。 因 此 ,实现 减法 的 
主要 工作 在 于 求 [一 yj#。 
根据 第 2 章 介绍 的 补 码 运算 的 特点 ,可 知 : 求 一 个 数 的 负数 的 补 码 可 以 由 其 补 码 “ 各 位 
取 反 , 末 位 加 1” 得 到 。 即 ,已 知 一 个 数 的 补 码 表 示 为 Y, 则 这 个 数 负 数 的 补 码 为 了 十 1, 因 此 ， 
只 要 在 原 加 法 器 的 了 输入 端 加 ?个 反 向 器 以 实现 各 位 取 反 的 功能 ,然后 加 一 个 2 选 
1 多 路 选择 器 ,用 一 个 控制 端 Sub 来 控制 ,以 选择 将 原 码 Y 输入 到 加 法 器 还 是 将 了 输入 到 
加 法 器 ,并 将 控制 端 Sub 同时 作为 低位 进位 送 到 加 法 器 ,如 图 3. 9 所 示 。 该 电路 可 实现 补 
码 加 减 运算 。 当 控制 端 Sub 为 1 时 ,做 减法 ,实现 X+TY 十 1 一 [zj]## 十 [一 y]#; 当 控制 端 
Sub 为 0 时 ,做 加 法 ,实现 X+TY 一 [z]# 十 [y]#。 





(3-4) 
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图 3.9 补 码 加 减 运算 部 件 


图 3.9 所 示 电 路 可 以 实现 整数 加 、 减 运算 ,其 中 的 加 法 器 就 是 图 3.6 所 示 的 带 标志 加 法 
器 。 因 为 无 符号 整数 相当 于 正 整数 ,而 正 整数 的 补 码 表示 等 于 其 二 进 制 表示 本 身 , 所 以 ,无 
符号 整数 的 二 进 制 表示 相当 于 正 整数 的 补 码 表示 ,因此 ,该 电路 同时 也 能 实现 无 符号 整数 的 
加 / 减 运算 。 对 于 带 符号 整数 zx 和 y 来 说 ,图 中 X 和 了 分 别 是 z 和 y 的 补 码 表示 ;对 于 无 符 
号 整数 zx 和 y 来 说 ,图 中 X 和 了 分 别 是 zx 和 > 的 二 进 制 表示 。 

可 通过 标志 信息 来 区 分 带 符号 整数 运算 结果 和 无 符号 整数 运算 结果 。 

零 标 志 ZF 二 1 表示 结果 下 为 0。 不 管 作 为 无 符号 数 还 是 带 符 号 整数 来 运算 ,ZF 都 有 意 
入 

符号 标志 SF 表示 结果 的 符号 , 即 下 的 最 高 位 。 对 于 无 符号 数 运算 ,SF 没有 意义 。 

进 / 借 位 标志 CF 表示 无 符号 数 加 / 减 运算 时 的 进位 / 借 位 。 加 法 时 ,车 CF==1 表示 无 符 
号 数 加 法 溢出 ;减法 时 , 若 CF=1 表示 有 借 位 , 即 不 够 减 。 因 此 ,加 法 时 CF 就 应 等 于 进位 输 
出 Cout; 减 法 时 ,就 应 将 进位 输出 Cout 取 反 来 作为 借 位 标志 。 综 合 起 来 ,可 得 CF= Sub 中 
Cout。 对 于 带 符号 整数 运算 ,CF 没有 意义 。 

溢出 标志 OF 二 1 表示 带 符号 整数 运算 时 结果 发 生 了 溢出 。 对 于 无 符号 整数 运算 ,OF 
没有 意义 。 

对 于 7 位 补 码 整数 , 它 可 表示 的 数值 范围 为 一 2 一 2 :一 1。 当 运算 结果 超出 该 范围 ， 
则 结果 溢出 。 补 码 溢出 判断 方法 有 多 种 , 先 看 两 个 例子 。 

例 3.2 用 4 位 补 码 计算 “一 7 一 6” 和 “一 3 一 5” 的 值 。 

解 补 一 1001 [一 6j]# 三 1010 
补 二 1101 [一 5j]# 二 1011 
6]# 王 [一 7 十 [一 6]# 王 1001 十 1010 王 0011( 十 3) 


5]# =[ 一 3 十 [一 5]#=1101 十 1011 王 1000( 一 8) 


进位 | IN 0 进位 1 1 1 1 
加 数 1N0o 0 1 加 数 WINN 
+ 1| ‘0 1 0 1 °0 AI 1 
和 1 0 0 0 





























可 
3 
和 
3 











:[ 
E 
E 
[ 











十 








和 lolo 1 1 











因为 4 位 补 码 的 可 表示 范围 为 一 8 一 十 7, 而 一 7 一 6 王 一 13 志 一 8 ,所 以 ,结果 0011( 十 3) 
一 定 发 生 了 溢出 ,是 一 个 错误 的 值 。 考 察 “ 一 7 一 6 的 例子 后 ,发 现 以 下 两 种 现象 : 
(1) 最 高 位 和 次 高 位 的 进位 不 同 。 
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(2) 和 的 符号 位 和 加 数 的 符号 位 不 同 。 

对 于 例子 “一 3 一 5”, 结 果 1000( 一 8) 没 有 超出 范围 ,因而 没有 发 生 溢出 ,是 一 个 正确 的 
值 。 此 时 ,最 高 位 的 进位 和 次 高 位 的 进位 都 是 1, 没 有 发 生 第 (1) 种 现象 ,而 且 , 和 的 符号 和 
加 数 的 符号 都 是 1, 因 而 也 没有 发 生 第 (2) 种 现象 。 

通常 根据 上 述 两 种 现象 是 否 发 生来 判断 有 无 溢出 。 因 此 ,有 以 下 两 种 溢出 判断 逻辑 表 
进 式 s 

(1) 若 符号 位 产生 的 进位 C, 与 最 高 数值 位 向 符号 位 的 进位 C,，: 不 同 , 则 产生 溢出 , 即 : 

Overflow = C， 中 C， 
(2) 若 两 个 加 数 的 符号 位 相同 , 且 与 和 的 符号 位 不 同 , 则 产生 溢出 。 即 : 
Overflow = X, 1 Y,1 F, 1 X,Y, ，F，， 

根据 上 述 溢出 判断 逻辑 表达 式 , 可 以 很 容易 实现 溢出 判断 电路 。 图 3. 6(b) 中 OF 的 生 

成 采用 了 上 述 第 (1) 种 方法 。 


“3.3.2 原 码 加 减 运算 


浮 点 数 多 采用 IEEE 754 标准 ,其 尾数 用 原 码 表示 , 故 在 浮 点 数 加 减 运算 中 涉及 原 码 加 
减 运算 。 原 码 加 减 运算 规则 如 下 : 

(1) 比较 两 个 操作 数 的 符号 ,对 加 法 实行 “ 同 号 求 和 , 异 号 求 差 ”, 对 减法 实行 “ 异 号 求 
和 , 同 号 求 差 ”。 

(2) 求 和 时 ,数值 位 相 加 , 若 最 高 位 产生 进位 则 结果 溢出 。 和 的 符号 位 取 被 加 数 ( 或 被 
减 数 ) 的 符号 。 

(3) 求 差 时 ,被 加 数 ( 或 被 减 数 ) 数 值 位 加 上 加 数 (或 减 数 ) 数 值 位 的 补 码 , 并 按 以 下 规则 
产生 结果 。 

@ 最 高 数值 位 产生 进位 ,表明 加 法 结果 为 正 , 所 得 数值 位 正确 。 

@ 最 高 数值 位 没有 产生 进位 ,表明 加 法 结果 为 负 , 得 到 的 是 数值 位 的 补 码 形式 ,因此 ， 
需要 对 结果 求 补 ,还 原 为 绝对 值 形式 的 数值 位 。 

@ 在 上 述 @ 的 情况 下 , 差 的 符号 位 取 被 加 数 (被 减 数 ) 的 符号 ;在 上 述 @ 的 情况 下 ,符号 
位 为 被 加 数 (被 减 数 ) 的 符号 取 反 。 


“3.3.3 移 码 加 减 运算 


在 浮 点 数 加 减 运算 中 ,需要 比较 两 个 指数 的 大 小 ,在 进行 浮 点 数 乘除 运算 中 ,需要 求 指 
数 的 和 与 差 ,因此 , 浮 点 数 运算 涉及 移 码 加 减 运算 。 
假设 玖 为 指数 ,其 移 码 位 数 为 ”根据 如 下 移 码 和 补 码 的 定义 : 
[Ejs =2™+E (~—2<<E2") 
E (0 
[ely = 
2" 十 已 (mod 2") (一 2 于 委 瑟 一 0) 
可 以 推导 出 移 码 的 加 减 运 算 规则 为 
[El]$ + [E28 = 2"! + El+2"!++E2 = 2"+El+E2? = [El+E2]a(mod 2") 
[LE1]# 一 [LE2]# = [Eljs+[—[LE2]js]s = 2" +El+2"—[LE2]s 
= 2"71 二 El+2"—2"1—E2 
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2"+El—E2= [El— E2]a(mod 2") 
由 上 述 规则 可 知 : 移 码 的 和 、 差 等 于 和 、 差 的 补 码 。 


3.3.4 原 码 采 法 运算 


原 码 作为 浮 点 数 尾数 的 表示 形式 ,需要 计算 机 能 实现 定点 原 码 小 数 的 乘法 运算 。 根 据 
每 次 部 分 积 是 一 位 相 乘 得 到 还 是 两 位 相 乘 得 到 ,可 以 有 原 码 一 位 乘法 和 原 码 两 位 乘法 ,根据 
原 码 两 位 乘法 的 原理 推广 ,可 以 有 原 码 多 位 乘法 。 

1. 原 码 一 位 乘法 

用 原 码 实现 乘法 运算 时 ,符号 位 与 数值 位 分 开 计 算 ,因此 , 原 码 乘法 运算 分 为 两 步 。 

(1) 确定 乘积 的 符号 位 。 由 两 个 乘 数 的 符号 异 或 得 到 。 

(2) 计算 乘积 的 数值 位 。 乘 积 的 数值 部 分 为 两 个 乘 数 的 数值 部 分 之 积 。 

原 码 乘法 算法 描述 如 下 : 已 知 [z] 原 一 Xo. Xi …X,，[y] 原 一 Yo.Y…Y， 则 [zxXy] 严 一 
Zo. Zi…Zo, 其 中 ,Zo 二 X,Yo ,Zi*…*Zz,=(0. X1*…*X,) X (0. YY,)。 

可 以 不 管 小 数 点 ,事实 上 在 机 器 内 部 也 没有 小 数 点 ,只 是 约定 了 一 个 小 数 点 的 位 置 ,小 
数 点 约定 在 最 左边 就 是 定点 小 数 乘 法 ,约定 在 右边 就 是 定点 整数 乘法 。 因 此 ,两 个 定点 小 数 
的 数值 部 分 之 积 可 以 看 成 是 两 个 无 符号 数 的 乘积 。 

下 面 是 一 个 手 算 乘法 的 例子 ,以 此 可 以 推导 出 两 个 无 符号 数 相 乘 的 计算 过 程 。 


0.1011 被 乘 数 X 一 0. XXXsX, 一 0.1011 
xo.1101 乘 数 Y=0. YYsYsY,=0.1101 
1 0 1 1 XXY,X 2 一 
0 0 0 0 eee XXY,X 2 
1 0 1 1 -------………----……- XXYSX 2 


D0 XXYX 2 


OIOO0OTLTI 
4 

由 此 可 知 , XXY= 》)(X XYx27) 一 0.10001111。 
这 1 


从 上 述 手 算 乘 法 过 程 可 以 看 出 ,两 个 无 符号 数 相 乘 具 有 以 下 几 个 特点 。 

(1) 用 乘 数 了 的 每 一 位 依次 去 乘 以 被 乘 数 得 XXY ,i 二 4,3,2,1。 若 Y; 二 0, 则 得 0; 若 
Yi 二 1, 则 得 X。 

(2) 把 (1) 中 求 得 的 各 项 结果 XXY; 在 空间 上 向 左 错位 排列 , 即 逐 次 左 移 ,可 以 表示 为 
YY 

(3) 对 (2) 中 求 得 的 结果 求 和 ,这 就 是 两 个 无 符号 数 的 乘积 。 

计算 机 中 两 个 无 符号 数 相 乘 ,类似 手 算 乘 法 ,但 为 了 提高 效率 , 作 了 相应 改进 。 主 要 的 
改进 措施 有 以 下 几 个 方面 。 

(1) 每 将 乘 数 Y 的 一 位 乘 以 被 乘 数 得 XXXY 后 ,就 将 该 结果 与 前 面 所 得 的 结果 累加 ， 
得 到 已 , 称 为 部 分 积 。 因 为 没有 等 到 全 部 计算 结束 后 一 次 求 和 ,所 以 减少 了 保存 每 次 相 乘 
结果 XXY; 的 开销 。 

(2) 在 每 次 求 得 XXY; 后 ,不 是 将 它 左 移 与 前 次 部 分 积 P; 相 加 ,而 是 将 部 分 积 P; 右 移 
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一 位 与 XXY; 相 加 。 
(3) 对 乘 数 中 为 1 的 位 执行 加 法 和 右 移 运算 ,对 为 0 的 位 只 执行 右 移 运算 ,而 不 需 执行 
加 法 运算 。 
因为 每 次 进行 加 法 运算 时 ,只 需要 将 XXY; 与 部 分 积 中 的 高 位 进行 相 加 ,低位 不 
会 改变 ,因此 ,只 需 用 nn 位 加 法 器 就 可 实现 两 个 n 位 数 的 相 乘 。 
上 述 思 想 可 以 写成 数学 推导 过 程 如 下 : 
XXYS=XKO TY) 
人 
一 2-1(21(2-…2-1(2-1(0 十 XXXY) 十 和 XY iD) 十 …… 十 和 XYs) 十 XXZ) 
7 个 2 
上 述 推导 过 程 具有 明显 的 递归 性 质 ,其 递 推 公式 为 
Pea = (PX XY C=0 Ly 2 ry Rely (3-5) 
设 Po 二 0, 无 符号 数 乘法 过 程 可 以 归结 为 循环 地 计算 下 列 算式 的 过 程 : 
P=27"(Po+XXY,) 
TE .I 





0 0 

上 述 推导 过 程 中 的 P; 称 为 部 分 积 ,每 一 步 迭 代 过 程 如 下 : 

(1) 取 乘 数 的 最 低位 Y,_; 判 断 。 

(2) 若 Y,_; 的 值 为 1, 则 将 上 一 步 迭 代 部 分 积 P; 与 X 相 加 ;车 Y,_; 的 值 为 0, 则 什么 也 
不 做 。 

(3) 右 移 一 位 ,产生 本 次 部 分 积 Pi 。 

部 分 积 P; 和 X 进行 无 符号 数 相 加 ,可 能 会 产生 进位 ,因而 需要 有 一 个 专门 的 进位 
位 C。 整 个 迭代 过 程 从 乘 数 最 低位 Y, 和 Pu,=0 开始 ,经 过 nn 次 “判断 -加 法 - 右 移 ” 循 
环 ,直到 求 出 P, 为 止 。P, 就 是 最 终 的 乘积 。 假 定 每 次 循环 在 一 个 时 钟 周期 内 完成 , 则 
n 位 乘法 需要 用 nn 个 时 钟 周期 来 完成 。 图 3. 10 是 实现 两 个 32 位 无 符号 数 乘法 的 逻辑 
结构 图 。 














































被 乘 数 寄存 器 X 
32 32 
RZ 8 
32 | 
64 位 = ! 
C 上 | 乘积 寄存 器 P| 乘 数 寄存 器 Y | 二 一- 和 
[| 32 u 








titer 
图 3.10 实现 32 位 无 符号 数 乘法 运算 的 逻辑 结构 图 


图 3. 10 中 被 乘 数 寄存 器 XX 用 于 存放 被 乘 数 ;乘积 寄存 器 了 开始 时 置 初始 部 分 积 P, 二 0， 
结束 时 存放 的 是 64 位 乘积 的 高 32 位 ; 乘 数 寄存 器 Y 开始 时 置 乘 数 ,结束 时 存放 的 是 
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64 位 乘积 的 低 32 位 ;进位 触发 器 C 保存 加 法 器 的 进位 信号 ;计数 器 C, 存放 循环 次 数 , 初 值 
是 32, 每 循环 一 次 ,C, 减 1, 当 C, 二 0 时 ,乘法 运算 结束 ;ALU 是 乘法 核心 部 件 , 在 控制 逻辑 
控制 下 ,对 乘积 寄存 器 P 和 被 乘 数 寄 存 器 X 的 内 容 进 行 “ 加 ”运算 ,在 “ 写 使 能 ”控制 下 运算 
结果 被 送 回 乘积 寄存 器 也 ,进位 位 存放 在 C 中 。 

每 次 循环 都 要 对 进位 位 C .乘积 寄存 器 P 和 乘 数 寄存 器 Y 实现 同步 “ 右 移 ”, 此 时 ,进位 
信号 C 移 入 寄存 器 P 的 最 高 位 ,寄存 器 了 的 最 低位 移出 到 寄存 器 Y 的 最 高 位 ,寄存 器 了 的 
最 低位 移出 ,0 移入 进位 位 C 中 。 从 最 低位 Y, 开始 ,逐次 把 乘 数 的 各 个 数位 Y,-; 移 到 寄存 
器 了 的 最 低位 上 。 因 此 ,寄存 器 Y 的 最 低位 被 送 到 控制 逻辑 以 决定 被 乘 数 是 否 “ 加 ”到 部 分 
积 上 。 

对 于 原 码 定点 小 数 的 乘法 运算 ,只 要 根据 上 述 无 符号 数 的 乘法 运算 得 到 乘积 的 数值 部 
分 ,然后 再 加 上 符号 位 ,就 可 以 得 到 最 终 原 码 表示 的 乘积 。 需 要 补充 说 明 一 点 , 当 被 乘 数 或 
乘 数 中 至 少 有 一 个 为 全 0 时 ,结果 直接 得 0 ,不 再 进行 乘法 运算 。 

例 3.3 已 知 [zjm 二 0.1101, [yjm 二 0.1011, 用 原 码 一 位 乘法 计算 [LxX yjn。 

解 : 先 采用 无 符号 数 乘法 计算 1101X1011 的 乘积 , 原 码 一 位 乘法 过 程 如 下 。 


C Pp YY 说 明 
0 0000 1011 P=0 

人 +1101 | TD 
0 1101 C.P 和 7 同时 右 移 一 位 























0 0110 1101 得 
+1101 1=1,+X 
1 0011 C.P 和 7 同时 右 移 一 位 
| 
+0000 =0, 不 作 加 法 (加 0) 
0 1001 11l10 C.P 和 了 同时 右 移 一 位 
0 0100 111]1 得 户 
2 +1101 | YL 
1 0001 C.P 和 了 同时 右 移 一 位 
0 1000 i11d 得 P， 
符号 位 为 0 由 0=0, 因 此 ,[zXy] 原 一 0.10001111。 


2. 原 码 二 位 乘法 
对 于 位 原 码 一 位 乘法 来 说 ,需要 经 过 nn 次 “判断 -加 法 - 右 移 ”循环 ,运算 速度 较 慢 。 如 
果 对 乘 数 的 每 两 位 取 值 情况 进行 判断 ,使 每 步 求 出 对 应 于 该 两 位 的 部 分 积 , 则 可 将 乘法 速度 
提高 一 倍 。 这 种 方法 被 称 为 原 码 二 位 乘法 ,只 需 在 原 码 一 位 乘法 的 基础 上 增加 少量 的 逻辑 
线路 ,就 可 实现 原 码 二 位 乘法 。 
考察 乘 数 每 两 位 的 组 合 以 及 对 应 的 求 部 分 积 的 操作 情况 ,归纳 如 下 : 
车 YY; = 00, 则 Pi = 22(P 十 0) 
车 YiiY; = 01, 则 Pin = 27?(P; 十 X) 
车 Yi1Y; = 10, 则 Pa = 27(P; 十 2X) 
者 YiaY = 11 则 Ps = 2 (B43X) 
对 于 上 述 “ 十 0” 和 “十 X” 的 情况 ,与 前 面 原 码 一 位 乘法 一 样 即 可 ;对 于 “十 2X”, 可 通过 
和 左 移 1 位 来 实现 ;对 于 “十 3X”, 则 以 4X 一 X 代替 3X, 在 本 次 运算 中 只 执行 一 和 ,而 十 4X 
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则 延迟 到 下 一 次 执行 。 因 此 ,这 种 情况 下 ,部 分 积 可 以 由 下 式 得 到 : PH 一 2“(P, 十 3X) 一 
2 (Pi 一 X 十 4X) 二 2 “(Pi 一 X) 十 X。“ 一 X” 用 十 [一 Xj 机 实现 。 因 为 下 一 次 部 分 积 已 右 移 
了 两 位 ,所 以 ,上 次 未 完成 的 “十 4X” 已 变 成 “十 X”。 可 用 一 个 触发 器 记录 是 否 需 要 下 次 
执行 “十 X”, 若 是 , 则 1。 因此 ,实际 操作 中 用 7; 、Y; 和 了 三 位 来 控制 乘法 操作 。 


3.3.5 补 码 采 法 运算 


补 码 作为 机 器 中 带 符号 整数 的 表示 形式 ,需要 计算 机 能 实现 补 码 乘法 运算 。 根 据 每 次 
部 分 积 是 一 位 相 乘 得 到 还 是 两 位 相 乘 得 到 ,有 补 码 一 位 乘法 和 补 码 两 位 乘法 。 

1. 补 码 一 位 乘法 

A. D. Booth 提出 了 一 种 补 码 相 乘 算 法 ,可 以 将 符号 位 与 数值 位 合 在 一 起 参与 运 
算 ,直接 得 出 用 补 码 表示 的 乘积 , 且 正 数 和 负数 同等 对 待 。 这 种 算法 被 称 为 布 斯 
(Booth) 乘法 。 

因为 补 码 用 来 表示 带 符号 整数 ,机 器 字 长 都 是 字 节 的 倍数 ,所 以 ,我 们 考察 偶数 位 的 补 
码 定点 整数 的 乘法 运算 , 即 假定 Lz]jh 和 [yj]# 是 两 个 偶数 位 补 码 定点 整数 ,[zXy]#h 的 布 斯 
乘法 递 推 公式 推导 如 下 。 

设 : [z]# 王 Xi XI Xo,[y]# 一 Yi…YiYo, 根 据 补 码 定义 ,可 得 到 真 值 y 的 计算 公 
式 如 下 。 


m2 
y 一 一 WD :和 ph 
i=0 











YY, 2orD 二 YY 26r2 十 十 Y121 十 Yo29 
Y, 2 十 了 26 一 了 2602 二 .十 Yi27 一 Yi21 十 Y21 一 Y,2° 
= 下 = Yi (0— YY 














nl 
= (Yr —Y) 2 
i=0 
这 里 假设 Y-1 二 0。 因 此 ， 
nl 
[zx yl = [zx (7 一 Z) 2°], (3-6) 
I= 


与 推导 无 符号 数 乘法 算法 一 样 ,可 以 不 考虑 小 数 点 位 置 ,只 要 最 终 的 乘积 约定 好 小 数 点 
位 置 就 可 以 了 。 因 此 , 式 (3-6) 的 右边 可 以 通过 乘 以 2“ 来 变换 成 以 下 形式 : 


mt 一 1 
[X= (3-7) 
i=0 
将 式 (3-7) 展 开 后 ,得 到 如 下 递 推 公式 : 
[Pda = [2 Pit (Yaa—Y) Tl (i=0,1,2,,n—1) (3-8) 


式 (3-8) 中 P; 为 上 次 部 分 积 ,Piii 为 本 次 部 分 积 。 令 [Poj]# 二 0, 则 有 : 
[Pij# = [27 (Po (Ya —Y) Xz) 1 
[P，]# = [27 CP, s+ (Ys —Y, 2) X x) Jn 总 齐 
[大 二 区 Pa 人 
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比较 式 (3-6) 和 式 (3-9) ,可 以 得 出 结论 : [zxXyj# 二 2"[LP, ]# ,因此 ,只 要 将 最 终 部 分 积 
[LP,j# 的 小 数 点 约定 到 最 右边 就 行 了 。 

由 弟 推 公式 (3-8) 可 以 知道 ,在 求 得 [LP;]# 后 ,根据 对 乘 数 中 连续 两 位 Y;Y;_ 1 的 判断 ,就 
可 求 得 [Pi J#。 

车 半 YY=1=01, 则 [PaijJ#= 三 [2 +(Pitx) ys 

车 Y; Y;_ 1 二 10, 则 [Piri]# 二 [27! (Pi; 一 zx) ]#。 

车 Y;Y;_ 1 二 00 或 11, 则 [Piwij]#= 二 [27!1(P; 十 0) ]#。 

上 式 中 的 [2 一 (P, 士 zx)]# 可 通过 执行 LP,]# 十 [ 士 z]# 后 右 移 一 位 实现 。 此 时 ,采用 的 
是 补 码 右 移 方式 , 即 是 带 符号 整数 的 算术 右 移 。 

根据 上 述 分 析 ,归纳 出 补 码 乘法 运算 规则 如 下 : 

(1) 乘 数 最 低位 增加 一 位 辅助 位 Y-_, 二 0 

(2) 根据 Y; Y;_1 的 值 ,决定 是 “十 [zj#”、“ 一 [zj#” 还 是 “十 0”。 

(3) 每 次 加 减 后 ,算术 右 移 一 位 ,得 到 部 分 积 。 

(4) 重复 第 (2) 和 第 (3) 步 n 次 ,结果 得 [xX yj]#。 

图 3.11 是 实现 32 位 补 码 一 位 乘法 的 逻辑 结构 图 ,和 图 3. 9 所 示 的 无 符号 数 乘法 电路 
的 逻辑 结构 很 类 似 , 只 是 部 分 控制 逮 辑 不 同 。 





























被 乘 数 寄存 器 X 
32 32 
dA Z 
32 | 
64 位 右 移 1 
乘积 寄存 器 忆 | 乘 数 寄存 器 了 控制 逻辑 
|. .3 








3.11 实现 补 码 一 位 乘法 的 逻辑 结构 图 


例 3.4 已 知 [zj#= 二 1101, [yj 二 0 110, 要 求 用 布 斯 乘法 计算 [xX yja。 
解 : [一 zj 二 0 011,Y 二 [yj# 二 0110, 布 斯 乘法 过 程 如 下 : 
Pp 了 Ye 说 ” 明 











0000 0110 0 设 了 ,=0, [Po]#=0 


























TT01™ E01 eI; 
1101 已 了 同时 右 移 一 位 
1110 1110| 0 得 [Pi 
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因此 ,[zXyj#==1110 1110 

验证 : x 二 一 011B 二 一 3,y 二 十 110B 二 6, zXy= 一 0001 0010B 二 一 18, 结 果 正 确 。 

布 斯 乘法 的 算法 过 程 为 n 次 “判断 -加 减 - 右 移 ” 循 环 ,从 流程 图 可 以 看 出 ,在 布 斯 乘法 
中 , 遇 到 连续 的 1 或 连续 的 0 时 ,可 跳 过 加 法 运算 直接 进行 右 移 操作 ,因此 , 布 斯 算法 的 运算 
效率 较 高 。 

2. 补 码 两 位 乘法 

补 码 乘法 也 可 以 采用 两 位 一 乘 的 方法 ,把 乘 数 分 成 两 位 一 组 ,根据 两 位 代码 的 组 合 决定 
加 或 减 被 乘 数 的 倍数 ,形成 的 部 分 积 每 次 右 移 两 位 。 补 码 两 位 一 乘 的 方法 可 以 用 布 斯 乘法 














过 程 来 推导 。 
假设 用 布 斯 乘法 已 经 求 得 部 分 积 LP;]#，, 则 部 分 积 LP ji# 和 [Pi+*]# 可 分 别 写 为 
[Pa = 2 (CPi + (Yi —Y) [z]) (3-10) 
[Po] = 27 (LPa]y + (CY: — Yn) [z]) (3-11) 


把 式 (3-10) 代 入 式 (3-11) 中 ,可 以 得 到 
[Piaz a =27 C27 (LP (Yi —Y;) [ra) t+ (Yi—Ym) [za) 
=23([P;]# 十 (Yii 二 +Y;— 2Y#1) [zj#) 
从 式 (3-12) 可 看 出 ,由 乘 数 中 相 邻 3 位 代码 YY Y-: 的 值 的 组 合作 为 判断 依据 ,可 
以 跳 过 [Pi ]# 的 计算 步 又, 即 从 LP,]# 直 接 求 得 LP+*]i 。 补 码 两 位 乘法 运算 过 程 与 布 斯 
乘法 相似 ,因此 称 为 改进 布 斯 算法 (Modified Booth Algorithm，MBA) ,也 称 为 基 4(Radix-4) 
布 斯 算法 。 因 为 字 长 总 是 8 的 倍数 ,所 以 补 码 的 位 数 n 应 该 是 偶数 ,因此 ,总 循环 次 数 为 
n/2。 该 算法 可 将 部 分 积 的 数目 压缩 一 半 , 从 而 提高 运算 速度 。 


“3.3.6 快速 乘法 器 


乘法 是 数字 信和 号 处 理 中 重要 的 基本 运算 。 在 图 像 .语音 .加 密 等 数字 信号 处 理 领 域 , 乘 
法 器 扮演 着 重要 的 角色 ,并 在 很 大 程度 上 决定 着 系统 性 能 。 乘 法 器 也 是 处 理 器 中 进行 数据 
处 理 的 关键 部 件 ,大约 1/3 是 乘法 运算 ,因此 ,有 必要 考虑 实现 高 速 乘法 运算 。 前 面 介 绍 的 
原 码 两 位 乘法 和 补 码 两 位 乘法 (MBA) ,通过 一 次 判断 两 位 乘 数 来 提高 乘法 速度 。 同 理 , 可 
以 采用 一 次 判断 更 多 位 乘 数 的 乘法 ,但 是 多 位 乘法 运算 的 控制 复杂 度 呈 几何 级 数 增长 ,实现 
难度 很 大 。 随 着 大 规模 集成 电路 技术 的 飞速 发 展 ,出 现 了 采用 硬件 释 加 或 流水 处 理 的 快速 
乘法 器 件 , 如 阵列 乘法 器 就 是 其 中 之 一 。 

图 3. 12 是 用 手 算 进行 两 个 4 位 无 符号 数 相 乘 的 示意 图 。 在 手 算 算式 中 ,每 个 X,Y; (i 二 
1 一 4 一 1 一 4) 都 是 由 两 个 1 位 的 二 进 制 数 相 乘 得 到 的 。 第 一 行为 XY, (一 1 一 4) ,第 二 行 
为 XiYs: (一 1 一 4), 第 三 行为 XYs(i 一 1 一 4), 第 四 行为 XY (一 1 一 4), 所 以 ,每 个 
XiYiG 一 1 一 4 一 1 一 4) 可 以 用 一 个 “与 ? 门 实现 。 每 行 都 向 左 错 一 位 ,最 终 将 权 相 等 的 位 的 
积 相 加 ,形成 最 终 的 乘积 P= P; P。 P;P Ps P; P' P,。 

在 计算 机 内 ,用 组 合 逻 辑 线路 可 以 构成 一 个 实现 上 述 执行 过 程 的 乘法 器 。 如 图 3. 13 所 
示 ,该 乘法 器 为 阵列 结构 形式 , 故 称 为 阵列 乘法 器 (array multiplier)。 图 中 实现 了 XXY, 其 
中 X= 二 Xi1X,XsX,,，Y 二 Yi1Y,Y;Y,。X 和 YY 是 无 符号 数 。 一 位 乘积 X;Y; 可 以 用 一 个 两 输 


(3-12) 
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Pp, Pe Ps 3 P; Pp, Pp Po 
图 3.12 4 位 无 符号 数 的 手 算 过 程 
入 端的 “与 ? 门 实现 。 每 一 次 加 法 操作 用 一 个 全 加 器 实现 。2 和 2’ 的 因子 所 蕴含 的 移 位 由 


全 加 器 的 空间 错位 来 实现 。“ 与 ” 门 和 全 加 器 的 功能 可 用 一 个 单元 组 合 起 来 , 称 为 一 个 细胞 
模块 ,在 图 中 用 一 个 方 框 来 表示 。 
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图 3.13 4X4 位 基于 CRA 的 阵列 乘法 器 


阵列 乘法 器 基于 移 位 与 求 和 算法 ,每 一 行 中 被 乘 数 与 乘 数 中 的 某 一 位 相 乘 ,产生 一 组 部 
分 积 。 即 每 一 行 由 乘 数 的 每 一 数位 Y;(j 二 1,2,3,4) 控 制 得 到 本 级 的 部 分 积 Xi2 一 义 了 (一 
1,2,3,4)。 而 每 一 斜 列 则 由 被 乘 数 的 每 一 数位 X; (i 二 1,2,3,4) 控 制 , 即 为 X; XY;2”i(j 二 
1,2,3,4)。 如 此 求 出 全 部 部 分 积 , 最 后 对 所 有 部 分 积 求 和 得 到 乘积 ,整个 电路 的 延迟 取决 于 
用 于 求 和 的 加 法 阵列 结构 。 

图 3.13 采用 的 是 基于 行 波 进位 加 法 器 (CRA) 的 阵列 乘法 器 ,采用 串 行 进位 ,每 一 级 部 
分 积 的 生成 不 仅 依赖 于 上 一 级 的 部 分 积 , 还 依赖 于 上 一 级 的 最 终 进 位 ,因而 运算 速度 慢 。 为 
加 快运 算 速 度 ,加 法 阵列 可 改 用 基于 CSA (Carry Save Adder, 进 位 保留 加 法 器 ) 方 式 的 结 
构 ,如 图 3. 14 所 示 。CSA 将 本 级 进位 与 本 级 和 同时 输出 至 下 一 级 ,而 不 是 向 前 传递 到 本 级 
的 下 一 位 ,因而 求 和 速度 快 , 且 向 下 级 传递 的 速度 与 字 长 无 关 。 
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3.14 6X6 位 基于 CSA 的 阵列 乘法 器 


阵列 乘法 器 结构 规范 ,标准 化 程度 高 ,有 利于 布局 布线 ,适合 用 超大 规模 集成 电路 实现 ， 
且 能 获得 较 高 的 运算 速度 ,其 乘法 速度 仅 取决 于 逻辑 门 和 加 法 器 的 传输 延迟 , 随 着 集成 电路 
价格 的 不 断 下 降 ,阵列 乘法 器 在 某 些 数字 系统 中 也 被 大 量 使 用 ,例如 在 数字 信号 处 理 系统 中 
受到 重视 。 

阵列 乘法 器 至 少 要 做 OCN) 次 加 法 ,速度 较 慢 。 为 了 进一步 提高 速度 ,部 分 积 求 和 电路 
可 采用 树 形 结构 。 树 形 结构 可 以 减少 求 和 级 数 ,是 提高 乘法 运算 速度 的 一 种 方法 。1961 年 
Wallac 提出 的 华 莱 士 树 (Wallace Tree, WT) 结 构 是 其 中 最 著名 的 一 种 , 它 对 16 位 以 上 的 乘 
法 运算 尤其 适用 。WT 结构 将 全 部 部 分 积 按 列 分 组 ,每 列 对 应 一 组 加 法 器 ,各 列 同 时 相 加 ， 
前 一 列 进位 传 至 后 一 列 , 生 成 新 的 部 分 积 阵列 ; 按 同样 的 方法 化 简 新 的 阵列 ,直至 只 剩 两 行 
部 分 积 ,最 后 用 高 速 加 法 器 求 和 得 到 最 终 乘积 。WT 结构 只 需 做 O(logN) 次 加 法 ,因而 运算 
速度 快 。 可 将 改进 布 斯 乘法 (MBA) 和 WT 结合 起 来 进一步 加 快 乘法 速度 ,MBA 用 来 减少 
部 分 积 个 数 , 而 WT 用 来 缩短 部 分 积 求 和 时 间 。 


3.3.7 原 码 除法 运算 


在 进行 定点 数 除法 运算 前 ,首先 要 对 被 除数 和 除数 的 取 值 和 大 小 进行 相应 的 判断 ， 
以 确定 除数 是 否 为 0, 商 是 否 为 0, 是 否 洲 出 或 为 不 确定 的 值 NaN。 通常 的 判断 操作 
如 下 : 

(1) 若 被 除数 为 0, 除数 不 为 0, 或 者 定点 整数 除法 时 | 被 除数 | 二 | 除数 | , 则 说 明 商 为 0， 
余数 为 被 除数 ,不 再 继续 执行 。 
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(2) 若 被 除数 不 为 0, 除数 为 0, 对 于 整数 , 则 发 生 “ 除 数 为 0” 异常 ;对 于 浮 点 数 , 则 结果 
为 无 穷 大 。 

(3) 车 被 除数 和 除数 都 为 0, 对 于 整数 , 则 发 生 除 法 错 异 常 ;对 于 浮 点 数 , 则 有 些 机 器 产 
生 一 个 不 发 信号 的 NaN, 即 quiet NaN。 

只 有 当 被 除数 和 除数 都 不 为 0, 并 且 商 也 不 可 能 溢出 (例如 , 补 码 中 最 小 负数 除 以 一 1 时 
会 发 生 溢出 ) 时 , 才 进一步 进行 除法 运算 。 

原 码 作为 浮 点 数 尾数 的 表示 形式 ,需要 计算 机 能 实现 定点 原 码 小 数 的 除法 运算 。 因 此 
本 节 下 面 介绍 原 码 除 法 运算 。 除 法 运算 与 乘法 运算 很 相似 ,都 是 一 种 移 位 和 加 减 运 算 的 迭 
代 过 程 ,但 比 乘法 运算 更 加 复杂 。 下 面 以 两 个 定点 正 数 为 例 说 明 手 算 除 法 步 又。 

假定 被 除数 X==10011101, 除 数 Y==1011, 以 下 是 这 两 个 数 相 除 的 手 算 过 程 : 

1110 商 


除数 1011) 10011101 被 除数 
1011 


10001 
1011 


01100 中 间 余 数 
1011 


0011 
0000 
0011 余数 


从 上 述 过 程 和 结果 来 看 , 手 算 除 法 的 基本 要 点 如 下 。 

(1) 被 除数 与 除数 相 减 , 若 够 减 , 则 上 商 为 1; 若 不 够 减 , 则 上 商 为 0。 

(2) 每 次 得 到 的 差 为 中 间 余 数 ,将 除数 右 移 后 与 上 次 的 中 间 余 数 比较 。 用 中 间 余 数 减 
除数 , 若 够 减 , 则 上 商 为 1; 若 不 够 减 , 则 上 商 为 0。 

(3) 重复 执行 第 (2) 步 ,直到 求 得 的 商 的 位 数 足够 为 止 。 

计算 机 内 部 的 除法 运算 与 手 算 算法 一 样 ,通过 被 除数 (中 间 余 数 ) 减 除数 来 得 到 每 一 位 
的 商 。 

原 码 除法 运算 与 原 码 乘 法 运算 一 样 ,要 将 符号 位 和 数值 位 分 开 来 处 理 。 商 的 符号 为 相 
除 两 数 符号 的 “ 异 或 ” 值 , 商 的 数值 为 两 数 绝对 值 之 商 。 因 此 ,以 下 考虑 定点 正 整数 和 定点 正 
小 数 的 除法 运算 。 除 法 逻辑 结构 类 似 于 乘法 人 逻辑 结构 ,图 3. 15 是 一 个 32 位 除法 逻辑 结构 
示意 图 。 

图 3. 15 中 除数 寄存 器 了 存放 除数 ;余数 寄存 器 民 开 始 时 置 被 除数 的 高 32 位 ,作为 初 
始 中 间 余 数 R, 的 高 位 部 分 ,结束 时 存放 的 是 余数 ;余数 / 商 寄存 器 Q 开始 时 置 被 除数 的 低 
32 位 ,作为 初始 中 间 余 数 R 的 低位 部 分 ,结束 时 存放 的 是 32 位 商 , 在 运算 过 程 中 ,Q 中 存 
放 的 并 不 是 商 的 全 部 位 数 ,而 是 部 分 为 被 除数 或 中 间 余 数 ,部 分 为 商 , 只 有 到 最 后 一 步 才 是 
商 的 全 部 位 数 ;计数 器 C, 存放 循环 次 数 , 初 值 是 32, 每 循环 一 次 ,C, 减 1, 当 C, 王 0 时 ,除法 
运算 结束 ;ALU 是 除法 器 核心 部 件 , 在 控制 逻辑 控制 下 ,对 于 余数 寄存 器 R 和 除数 寄存 器 
Y 的 内 容 进行 “加 / 减 ” 运 算 , 在 “ 写 使 能 "控制 下 运算 结果 被 送 回 寄存 器 R。 

每 次 循环 都 要 对 寄存 器 R 和 Q 实现 同步 左 移 , 左 移 时 ,Q 的 最 高 位 移入 R 的 最 低位 ， 
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除数 寄存 器 了 
ja 32 
32 位 ALUL_ 加 / 减 _____________ , 
32 1 
1 64 位 一 移 ! 
余数 寄存 器 R 1 余数 / 商 寄存 器 0 | 二 二 二 二 半 控制 逻辑 
全 于 丰 烛 4 1 余下/ 商 才 丰 咀 Q 上 1 











十 32 
时 钟 





图 3.15 32 位 除法 运算 逻辑 结构 


Q 中 空 出 的 最 低位 上 被 上 商 。 从 低位 开始 ,逐次 把 商 的 各 个 数位 左 移 到 Q 中 。 每 次 由 控制 
逻辑 根据 ALU 运算 结果 的 符号 位 来 决定 上 商 为 0 还 是 1。 

由 图 3. 15 可 知 ,两 个 32 位 数 相 除 ,必须 把 被 除数 扩展 成 一 个 64 位 数 。 推 而 广 之 ,n 位 
定点 数 的 除法 ,实际 上 是 用 一 个 2 位 的 数 去 除 以 一 个 位 的 数 ,得 到 一 个 位 的 商 。 因 此 
需要 进行 被 除数 的 扩展 。 

定点 正 整 数 和 定点 正 小 数 的 除法 运算 都 可 以 用 图 3. 15 所 示 的 除法 逻辑 来 实现 。 只 是 
被 除数 扩展 的 方法 不 太一 样 , 此 外 ,导致 溢出 的 情况 也 有 所 不 同 。 

(1) 对 于 两 个 位 定点 正 整 数 相 除 的 情况 , 即 当 两 个 位 无 符号 数 相 除 时 ,只 要 将 被 除 
数 六 的 高 位 添 n 个 0 即 可 。 即 关 ==XX,_1 义 ,_，…X1Xo 变 成 和 一 00…00 X,_1 义 ,2*… 义 1 Xo。 
显然 ,对 被 除数 预 置 时 ,R 寄存 器 中 为 全 0,Q 寄存 器 中 为 被 除数 X。 这 种 方式 通常 称 为 单 
精度 除法 ,其 商 的 位 数 一 定 不 会 超过 位 ,因此 不 会 发 生 洲 出 。 

(2) 对 于 两 个 位 定点 正 小 数 相 除 的 情况 , 即 当 两 个 作为 浮 点 数 尾数 的 位 原 码 小 数 
相 除 时 ,只 要 在 被 除数 X 的 低位 添加 x 个 0 即 可 。 即 将 和 一 0. Xi XXX 变 成 
X 一 0. XXX,-:…XiXo00…00, 显 然 ,扩展 为 2n 位 后 ,R 寄存 器 中 为 被 除数 X,Q 寄存 器 中 
为 全 0。 

(3) 对 于 一 个 22 位 的 数 与 一 个 对 位 的 数 相 除 的 情况 , 则 无 须 对 被 除数 X 进行 扩展 ， 
这 种 情况 下 , 商 的 位 数 可 能 多 于 nn 位 ,因此 ,有 可 能 发 生 溢出 。 采 用 这 种 方式 的 机 内 ,其 
除法 指令 给 出 的 被 除数 在 两 个 寄存 器 或 一 个 双 倍 字 长 寄存 器 中 ,这 种 方式 通常 称 为 双 精 
度 除法 。 

综合 上 述 几 种 情况 ,可 把 定点 正 整数 和 定点 正 小 数 归结 在 统一 的 假设 下 ,并 将 其 统 
称 为 无 符号 数 的 除法 。 因 而 ,我们 假定 : 除法 运算 时 ,被 除数 X 为 22 位 ,除数 Y 和 商 Q 
都 为 位。 本 书后 面 对 无 符号 数 除法 和 原 码 定点 小 数 除 法 的 算法 描述 也 都 基于 这 个 
假设 。 

参考 手 算 除 法 过 程 ,得 到 计算 机 中 两 个 无 符号 数 除法 的 运算 步骤 和 算法 要 点 如 下 : 

(1) 操作 数 预 置 。 在 确认 被 除数 和 除数 都 不 为 0 后 ,将 被 除数 (必要 时 进行 0 扩展 ) 置 
于 余数 寄存 器 RR 和 余数 / 商 寄 存 器 Q 中 ,除数 置 于 除数 寄存 器 站 中。 

(2) 做 减法 试 商 。 根据 R 一 Y 得 到 的 结果 的 符号 来 判断 两 数 的 大 小 。 若 结果 为 正 , 则 
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上 商 1, 若 结果 为 负 , 则 上 商 0。 

(3) 上 商 为 0 时 恢复 余数 。 把 减 掉 的 除数 再 加 回来 ,恢复 原来 的 中 间 余 数 。 

(4) 中 间 余 数 左 移 , 以 便 继续 试 商 。 手 算 除 法 中 ,每 次 试 商 前 ,除数 右 移 后 ,与 中 间 余 数 
进行 比较 。 在 计算 机 内 部 进行 除法 运算 时 ,除数 在 除数 寄存 器 中 不 动 ,因此 ,需要 将 中 间 余 
数 左 移 ,将 左 移 结果 与 除数 相 减 ,以 进行 比较 。 左 移 时 中 间 余 数 和 商 一 起 进行 左 移 ,Q 的 最 
低位 空 出 ,以 备 上 商 。 

上 述 给 出 的 算法 要 点 (3) 中 ,采用 了 “上 商 为 0 时 恢复 余数 ?的 方式 ,所 以 ,把 上 述 这 种 方 
法 称 为 "恢复 余数 法 ”。 也 可 以 不 这 样 做 ,而 是 在 下 一 步 运算 时 把 当前 多 减 的 除数 补 回 来 。 
这 种 方法 称 为 “不 恢复 余数 法 ”, 又 称 “ 加 减 交 蔡 法 ”。 根 据 余 数 恢复 方式 的 不 同 , 有 “恢复 余 
数 除法 ”和 “不 恢复 余数 除法 ”两 种 。 

1. 恢复 余数 除法 

假定 被 除数 X 为 22 位 ,除数 Y 和 商 Q 都 为 n 位 ,X、Y 和 Q 分 别 表示 为 : X= 
Xa 1Xa XXXIXo YY 一 7 YYoQ=QQ-…QQ, 则 恢复 余数 除法 的 算 
法 步 又 如 下 。 

第 1 步 : Ri 二 X 一 了 , 若 Ri 一 0, 则 上 商 Q, 二 0, 同 时 恢复 余数 , 即 Ri 二 Ri 十 Y; 若 Ri 宇 0， 
则 上 商 Q, 三 1。 这 里 求 得 的 商 Q, 是 商 的 第 位 数值 。 显 然 , 若 Q,=1, 则 商 将 会 有 ?十 1 位 
数 。 这 对 于 以 下 不 同 的 情况 ,意味 着 不 同 的 结果 。 

(1) 对 于 无 符号 整数 除法 来 说 ,如 果 被 除数 为 2n 位 , 则 商 有 可 能 会 超出 n 位 无 符号 整 
数 范围 ,所 以 ,车 Q, 二 1, 则 发 生 溢出 。 

(2) 对 于 原 码 定点 小 数 除法 来 说 , 若 Q,=1, 则 相 除 结果 的 数值 从 小 数 部 分 溢出 到 了 整 
数 部 分 , 按 道理 ,两 个 定点 小 数 相 除 ,结果 也 应 是 定点 小 数 , 故 应 当 作 溢出 处 理 。 但 浮 点 数 尾 
数 溢出 时 ,可 通过 右 规 来 消除 ,最 终 只 要 阶 码 不 溢出 ,结果 仍然 正确 。 所 以 ,这 种 情况 下 , 保 
留 最 高 位 的 商 Q,=1 ,继续 执行 下 去 。 

第 2 步 : 若 已 求 得 第 i 次 的 中 间 余 数 为 R;, 则 第 i 十 1 次 的 中 间 余 数 为 Ri 一 2R, 一 Y。 
车 RH <0, 则 上 商 Q,-; 二 0, 同 时 恢复 余数 , 即 Ri 二 Ri 十 Y; 若 RH 二 0, 则 上 商 Q,_; 二 1。 

第 3 步 : 循环 执行 第 2 步 ? 次 ,直到 求 出 所 有 ?位 商 Q, :一 Qu 为 止 。 

最 终 , 商 在 Q 寄 存 器 中 ,余数 在 R 寄存 器 中 。 

例 3.5 已 知 [xjm 二 0.1011, [yjm 二 1.1101, 用 恢复 余数 法 计算 [zr/yjrn。 

解 : 分 符号 位 和 数值 位 两 部 分 进行 。 

商 的 符号 位 : 0 由 1 一 1。 

商 的 数值 位 采用 恢复 余数 法 。 减 法 操作 用 补 码 加 法 实现 ,是 否 够 减 通过 中 间 余 数 的 符 
号 来 判断 ,所 以 中 间 余 数 要 加 一 位 符号 位 。 因 此 , 需 先 计算 出 X=[|z|j# 二 0.1011， 
Y=[|y|jy =0.1101,—Y=[—|y|j#=1.0011。 

因为 是 原 码 定点 小 数 , 所 以 在 低位 扩展 0。 虽 然 实际 参加 运算 的 数据 是 [|z|]# 和 
[ly|]# ,但 为 简单 起 见 ,说 明 时 分 别 标识 为 X 和 了 。 

运算 过 程 如 下 : 
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余数 寄存 器 R ”余数 / 商 寄存 器 O 说 ” 明 
01011 0000|ID 开始 R= 
+10011 RI=XY 
11110 RI<0, 故 Q#=0 
+01101 恢复 余数 : R=RI+TY 
01011 得 Ri 
10110 2RI(R 和 Q 同 时 左 移 , 空 出 一 位 商 ) 
+10011 Ry-2RIY 
01001 R,>>0, 故 Qs=1 
10010 2R,(R 和 QO 同时 左 移 ， 空 出 一 位 商 ) 
+10011 Rs=2R,Y 
00101 Rs>0, 故 Ox=1 
01010 2R3(R 和 Q 同 时 左 移 , 空 出 一 位 商 ) 
+10011 Rs=2Rs-Y 
11101 Rs<0, 故 Q1=0 
+01101 恢复 余数 : Ra=R4+Y 
01010 得 Rs 
10100 2R4(R 和 台 同 时 左 移 , 空 出 一 位 商 ) 
+10011 Rs=2R4- 
00111 Rs;>>0, 故 Qo=1 





商 的 最 高 位 为 0, 说 明 没 有 溢出 , 商 的 数值 部 分 为 1101。 

所 以 ,[x/yjm 二 1.1101( 最 高 位 为 符号 位 ) ,余数 为 0.0111X2™。 

2. 不 恢复 余数 除法 

在 恢复 余数 除法 运算 中 ,当中 间 余 数 与 除数 相 减 结果 为 负 时 ,要 多 做 一 次 十 Y 操作 , 因 
而 降低 了 算法 执行 速度 ,又 使 控制 线路 变 得 复杂 。 在 计算 机 中 很 少 采 用 恢复 余数 除法 ,而 普 
遍 采 用 不 恢复 余数 除法 。 其 实现 原理 如 下 。 

在 恢复 余数 除法 中 ,第 i 次 余数 为 R; 二 2R;_1 一 Y。 根 据 下 次 中 间 余 数 的 计算 方法 ,有 以 
下 两 种 不 同情 况 : 

(1) 车 Ri 宇 0, 则 上 商 1, 不 需 恢 复 余数 ,直接 左 移 一 位 后 试 商 , 得 下 次 余数 Ri，, 即 
RH 一 2R; 一 7。 

(2) 车 R; 二 0, 则 上 商 0, 且 需 恢 复 余数 后 左 移 一 位 再 试 商 , 得 下 次 余数 RH , 即 Ri+i 二 
2(CR, 十 Y) 一 Y 一 2R; 十 Y。 

当 第 i 次 中 间 余 数 为 负 时 ,可 以 跳 过 恢复 余数 这 一 步 ,直接 求 第 i 十 1 次 中 间 余 数 。 这 
种 算法 称 为 不 恢复 余数 法 。 从 上 述 推 导 可 以 发 现 ,不 恢复 余数 法 的 算法 要 点 就 是 6 个 字 : 
“ 正 、1\ 减 , 负 、0、 加 ”。 其 含义 就 是 : 若 中 间 余 数 为 正 数 , 则 上 商 为 1, 下 次 做 减法 ; 若 中 间 余 
数 为 负数 , 则 上 商 为 0, 下 次 做 加 法 。 这 样 运算 中 每 次 循环 内 的 步 又 都 是 规整 的 ,差别 仅 在 
做 加 法 还 是 减法 ,所 以 ,这 种 方法 也 称 为 “加 减 交 替 法 ”。 采 用 这 种 方法 有 一 点 要 注意 , 即 如 
果 在 最 后 一 步 上 商 为 0, 则 必须 恢复 余数 ,把 试 商 时 减 掉 的 除数 加 回去 。 

例 3.6 已 知 [xjm 二 0.1011, [yjm 二 1.1101, 用 不 恢复 余数 除法 计算 [rx/yjm。 

解 : 分 符号 位 和 数值 位 两 部 分 进行 。 

商 的 符号 位 : 0 加 1==1。 
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商 的 数值 位 采用 不 恢复 余数 除法 。 减 法 操作 用 补 码 加 法 实现 ,是 否 够 减 通过 中 间 余数 
的 符号 来 判断 ,所 以 中 间 余 数 要 加 一 位 符号 位 。 需 先 计算 出 X=[|z|jJ# 二 0.1011， 
Y=[|y| =0.110l =Y=[=— |5l n= L0011, 















































运算 过 程 如 下 : 
余数 寄存 器 R ”余数 / 商 寄 存 器 Q 说 ” 明 
+01101 Rj=2RI+Y 
01001 0000 Ry>0, 故 O3=1 
0010 00 2R,(R 和 QQ 同时 左 移 ， 空 出 一 位 商 ) 
+10011 Rs=2RY 
eh 0 
01010 0lo110 2R3(R 和 QO 同时 左 移 , 空 出 一 位 商 ) 
+10011 Ra=2R3-Y 
101 00110 R4<0, 故 Q1=0 
11010 01100 2R4(R 和 同时 左 移 , 空 出 一 位 商 ) 
+01101 Rs=2RatY 
00111 01101 Rs>0, 故 Oo=1l 


商 的 最 高 位 为 0, 说 明 没有 溢出 , 商 的 数值 部 分 为 1101。 所 以 ,[z/yJ 一 1. 1101( 最 高 
位 为 符号 位 ) ,余数 为 0.0111 X27。 

从 上 述 给 出 的 几 个 除法 例子 以 及 有 关 恢 复 余数 除法 和 不 恢复 余数 除法 的 算法 流程 中 可 
以 看 出 ,要 得 到 位 无 符号 数 的 商 , 需 要 循环 "十 1 次 ,其 中 第 一 次 得 到 的 不 是 真正 的 商 , 而 
是 用 来 判断 溢出 的 。 为 了 节省 运算 时 间 ,第 一 次 可 以 不 试 商 而 直接 左 移 , 这 样 只 要 ?次 循 
环 。 因 为 对 于 两 个 n 位 定点 整数 除法 来 说 ,其 商 一 定 不 会 超过 位 ,所 以 不 会 发 生 游 出 , 因 
而 ,n 位 定点 整数 除法 第 一 次 无 须 试 商 来 判断 溢出 。 


“3.3.8 补 码 除法 运算 


补 码 作为 带 符号 整数 的 表示 形式 ,需要 计算 机 能 实现 定点 补 码 整数 的 除法 运算 。 与 补 
码 加 减 运算 、 补 码 乘法 运算 一 样 , 补 码 除法 也 可 以 将 符号 位 和 数值 位 合 在 一 起 进行 运算 ,而 
且 商 符 直 接 在 除法 运算 中 产生 。 对 于 两 个 位 补 码 除 法 ,被 除数 需要 进行 符号 扩展 。 若 被 
除数 为 2” 位 ,除数 为 4 位, 则 被 除数 无 须 扩展 。 

同样 ,首先 要 对 被 除数 和 除数 的 取 值 、 大 小 等 进行 相应 的 判断 ,以 确定 除数 是 否 为 0, 商 
是 否 为 0, 是 否 溢出 。 

因为 补 码 除法 中 被 除数 .中 间 余 数 和 除数 都 是 有 符号 的 ,所 以 ,不 像 无 符号 除法 和 原 码 
除法 那样 可 以 直接 用 做 减法 来 判断 是 否 够 减 ,而 应 该 根据 被 除数 (中 间 余 数 ) 与 除数 之 间 符 
号 的 异同 或 差 值 的 正 负 来 确定 下 次 做 减法 还 是 加 法 ,再 根据 加 或 减 运算 的 结果 来 判断 是 否 
够 减 。 表 3.2 给 出 了 判断 是 否 够 减 的 规则 。 

从 表 3.2 可 看 出 , 当 被 除数 (中 间 余 数 ) 与 除数 同 号 时 做 减法 , 异 号 时 做 加 法 。 若 加 减 运 
算 后 得 到 的 新 余数 与 原 余数 符号 一 致 (余数 符号 未 变 ) 则 够 减 , 否 则 不 够 减 。 

根据 是 否 立 即 恢复 余数 , 补 码 除法 也 分 为 恢复 余数 除法 和 不 恢复 余数 除法 两 种 。 
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表 3.2 补 码 除法 判断 是 否 够 减 的 规则 和 
余数 : R 一 Y 余数 : R 十 Y 
市 癌 六 数 守 除数 了 新 中 间 余 数 新 中 间 余数 章 
0 和 0 1 
0 0 够 减 不 够 减 
0 . 够 减 不 够 减 
1 0 不 够 减 够 减 
1 L 不 够 减 够 减 

















1. 补 码 恢复 余数 除法 

根据 补 码 除法 判断 是 否 够 减 的 判断 规则 ,可 以 得 到 如 下 补 码 恢复 余数 除法 的 算法 要 点 。 

(1) 操作 数 的 预 置 : 除数 装 人 除数 寄存 器 了 ,被 除数 符号 扩展 后 装 人 余数 寄存 器 R 和 
余数 / 商 寄 存 器 Q。 

(2) R 和 Q 同步 串 行 左 移 一 位 。 

(3) 车 尺 与 Y 同 号 , 则 做 减法 , 即 R=R 一 Y; 否 则 ,做 加 法 , 即 R= 二 R 十 Y, 并 按 以 下 规则 
确定 第 i 次 循环 得 到 的 商 Q,_;。 

@ 若 R 和 Q 中 的 余数 =0 或 尺 操作 前 后 符号 未 变 , 则 表示 够 减 ,Q,_; 置 1, 转 第 (4) 步 。 

@ 若 尺 操作 前 后 符号 已 变 , 表 示 不 够 减 , 则 Q,-; 置 0, 恢 复 R 值 后 转 第 (4) 步 。 

(4) 重复 第 (2) 步 和 第 (3) 步 ,直到 取得 位 商 为 止 。 

(5) 若 被 除数 与 除数 同 号 , 则 Q 中 是 真正 的 商 ; 和 否则 ,将 Q 中 的 数值 求 补 。 

(6) 余数 在 尺 中 。 

从 上 述 算法 要 点 可 以 看 出 ,在 进行 置 商 时 ,采用 了 “ 够 减 则 上 商 为 1, 不够 减 则 上 商 为 0” 
的 上 高 方式 ,因此 ,最 后 若 商 为 负 值 , 则 需要 “各 位 取 反 ,未 位 加 1” 来 得 到 真正 的 商 。 

例 3.7 用 4 位 补 码 恢复 余数 法 计算 一 7/3 的 值 。 

解 : 被 除数 一 7 的 8 位 补 码 表示 为 X 一 [zji 王 1111 1001, 除 数 3 的 4 位 补 码 表示 为 
Y=[yj#=0011,—Y=[—yj#=1101。 

余数 寄存 器 R ”余数 / 商 寄存 器 CO 说 明 

开始 Ru=[X] 


2Ro(R 和 Q 同 时 左 移 , 空 出 一 位 商 
R 与 了 异 号 ， 
R 符 号 已 变 
恢复 ( 减 ) 
QO; 置 0, 得 R 


2R1(R 和 0 同时 左 移 , 空 出 一 位 商 ) 
R 与 Y 异 号 , 力 
R 符 号 已 变 
恢复 ( 减 ) 
久 置 0, 得 Rs 











































2R;(R 和 同时 左 移 ， 空 出 一 位 商 ) 
及 与 了 异 号 , 力 
有 符号 已 变 
恢复 ( 减 ) 
Qo 置 0, 得 Rs 
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因为 被 除数 与 除数 异 号 , 故 商 取 补 为 1110, 余 数 为 11 
2. 补 码 不 恢复 余数 除法 


11, 即 一 7/3 王 一 2, 余 数 为 一 1。 


根据 补 码 除 法 判断 是 否 够 减 的 判断 规则 ,可 以 得 到 如 下 补 码 不 恢复 余数 除法 的 算法 要 点 。 
(1) 操作 数 的 预 置 : 除数 装 和 人 除数 寄存 器 了 ,被 除数 符号 扩展 后 装 和 人 余数 寄存 器 R 和 


余数 / 商 寄存 器 Q。 
(2) 根据 以 下 规则 求 第 一 位 商 Q, 。 


车 XX 与 Y 同 号 , 则 做 减法 , 即 Ri 二 X 一 了 ;否则 ,做 加 法 , 即 Ri 二 X 十 了 ,并 按 以 下 规则 确 


定 商 值 Q, 。 
Q@ 若 新 的 中 间 余 数 Ri 与 Y 同 号 , 则 Q, 置 1, 转 第 (3 
@ 若 新 的 中 间 余 数 Ri 与 Y 异 号 , 则 Q, 置 0, 转 第 (3 


) 步 。 
) 步 。 


Q ,用 来 判断 是 否 溢出 ,而 不 是 真正 的 商 。 以 下 情况 下 会 发 生 溢出 : XX 与 Y 同 号 且 上 商 


Q,=1, 或 者 X 与 了 异 号 且 上 商 Q,=0。 
(3) 对 于 ;一 1 到 n, 按 以 下 规则 求 出 相应 位 的 商 。 
@ 若 Ri 与 Y 同 号 ,; 则 Q,; 置 1,Rin 二 2R; 一 Y ,i 二 i 
@ 若 R; 与 Y 异 号 ,; 则 Q,_; 置 0,Riti 二 2R; 十 Y ,i 二 i 


-1。 
-1。 





(4) 商 的 修正 : 最 后 一 次 Q 寄存 器 左 移 一 位 ,将 最 高 位 Q, 移出 ,并 在 最 低位 置 上 商 
Qu 。 若 被 除数 与 除数 同 号 ，Q 中 就 是 真正 的 商 ; 和 否则 ,将 Q 中 的 商 的 末 位 加 1。 

(5) 余数 的 修正 : 若 余数 符号 同 被 除数 符号 , 则 不 需 修 正 ,余数 在 尺 中 ;和 否则 , 按 下 列 规 
则 进行 修正 : 当 被 除数 和 除数 符号 相同 时 ,最 后 余数 加 除数 ;否则 ,最 后 余数 减 除数 。 

与 无 符号 数 的 不 恢复 余数 法 一 样 , 补 码 不 恢复 余数 法 也 有 一 个 六 字 口 诀 * 同 、1、 减 , 异 、 
0、 加 ”。 所 以 ,其 运算 过 程 也 是 加 / 减 交替 的 方式 ,因此 也 称 为 “加 减 交替 法 ”。 

例 3.8 已 知 z= 一 9,y 二 2, 要 求 用 补 码 除法 计算 [x/yj#。 

解 : X= 二 [zj 二 1 0111, 了 二 [yj# 二 0 0010, 计 算 过 程 如 下 : 








先 对 被 除数 进行 符号 扩展 , 即 X=11111 10111, 一 Y=[ 一 y]x 二 1 1110。 
余数 寄存 器 R 余数 / 商 寄存 器 O 


说 明 






























































lt 11110 2R4(R 和 同时 左 移 , 空 出 一 位 上 商 0) 
+00010 Rs=2R4+ Y 

00001 1l110 Rs 与 了 7 同 号 , 故 Cr1 

00011 11101 2Rs(R 和 Q 同 时 左 移 , 空 出 一 位 上 商 1) 
+11110 Re=2Rs—Y 

00001 11011 Q 左 移 , 空 出 一 位 上 商 。R6 与 7 同 号 , 故 Oo-1 


+11110 + 1 商 为 负数 , 末 位 加 1; 减 除数 以 修正 余数 


11111 11100 
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所 以 ,[z/y]# 王 11100, 余 数 为 11111。 
即 zx/y 王 一 0100B 王 一 4, 余 数 为 一 0001B 本 
将 各 数 代 人 公式 “除数 X 商 十 余数 = 被 除数 ?进行 验证 ,得 2X (一 4) 十 (一 1) 一 一 9。 


3.4 浮 点 数 运算 


从 3.1 节 介绍 的 有 关 高 级 语言 和 机 器 指令 涉及 的 运算 来 看 , 浮 点 运算 主要 包括 浮 点 数 
的 加 ` 减 ,乘除 运算 。 一 般 有 单 精 度 浮 点 数 和 双 精 度 浮 点 数 运 算 , 有 些 机 器 还 支持 80 位 或 
128 位 扩展 浮 点 数 运算 。 


3.4.1 浮 点 数 加 减 运 算 


先 看 一 个 十 进 制 数 加 法 运算 的 例子 : 0. 123X10 十 0.456X10?。 显 然 ,不 可 以 把 0.123 和 

0.456 直接 相 加 ,必须 把 指数 调整 为 相等 后 才 可 实现 两 数 相 加 。 其 计算 过 程 如 下 : 
0.123 X 105 十 0.456 X 102 =0. 123 X 105 + 0.000456 X 10 
一 (0.123 十 0.000456) X 105 
一 0.123456 X 105 

从 上 面 的 例子 不 难 理解 实现 浮 点 数 加 减法 的 运算 规则 。 

设 两 个 规格 化 浮 点 数 zx 和 y 表示 为 zx 一 M-X252 ,y 一 M,X25 ,M;、M, 分 别 是 浮 点 数 工 
和 y 的 尾数 ,E, .下 , 分 别 是 浮 点 数 z 和 y 的 指数 ,不 失 一般 性 , 设 EE, 二 E, ,那么 

z+y= (M, X25 E+M,) X25 
xz—y= (M- X 25 5 —M,) X25 

计算 机 中 实现 上 述 计 算 过 程 需 要 经 过 对 阶 、 尾 数 加 减 、 规 格 化 和 舍 人 4 个 步骤 ,此 外 ,还 
必须 考虑 溢出 判断 和 溢出 处 理 问 题 。 假 定 在 下 面 的 讨论 中 z 土 y 未 经 规格 化 的 结果 表示 为 
W225 

1. 对 阶 

对 阶 的 目的 是 使 + 和 y 的 阶 码 相 等 ,以 使 尾数 可 以 相 加 减 。 对 阶 的 原则 是 : 小 阶 向 大 
阶 看 齐 , 阶 小 的 那个 数 的 尾数 右 移 , 右 移 的 位 数 等 于 两 个 阶 ( 指 数 ) 的 差 的 绝对 值 。 

假设 AE=E, 一 E,, 则 对 阶 操作 可 以 表示 如 下 : 

车 AE<0, 则 E, 一 E,,M,<—M, X25 5,E,<E,。 

车 AE>>0, 则 E,<—E,,M,<—M, X25 5 ,E,<E,。 

大 多 数 机 器 采用 IEEE 754 标准 来 表示 浮 点 数 ,因此 ,对 阶 时 需要 进行 移 码 减法 运算 ， 
并 且 尾 数 右 移 时 按 原 码 小 数 方式 右 移 ,符号 位 不 参加 移 位 ,数值 位 要 将 隐 含 的 一 位 1 右 移 到 
小 数 部 分 , 空 出 位 补 0。 为 了 保证 运算 的 精度 ,尾数 右 移 时 ,低位 移出 的 位 不 要 丢掉 ,应 保留 
并 参加 尾数 部 分 的 运算 。 

根据 3. 3. 3 节 介 绍 的 有 关 移 码 加 减 运算 规则 ,可 知 : 

[AE]#=[E,.—E,]#=[E,]#+[—[LE,J#]# (mod 2") 

因此 ,只 要 先 对 [E,]$ 求 补 ,再 与 [E,]$ 相 加 ,就 可 以 计算 [CAE]#。 对 [E,]$ 求 补 时 采用 

“各 位 取 反 , 末 位 加 1” 即 可 。 然 后 根据 LAEj]# 的 符号 ,可 以 判断 出 AE>0 还 是 AE<0。 
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2. 尾数 加 减 

对 阶 后 两 个 浮 点 数 的 指数 相等 ,此 时 ,可 以 进行 对 阶 后 的 尾数 相 加 减 。 因 为 IEEE 754 
采用 定点 原 码 小 数 表 示 尾 数 ,所 以 ,尾数 加 减 实际 上 是 定点 原 码 小 数 的 加 减 运算 ,可 根据 
3.3.2 节 介 绍 的 定点 原 码 小 数 加 减 运 算 进 行 。 因 为 IEEE 754 浮 点 数 尾数 中 有 一 个 隐藏 位 ， 
所 以 ,在 进行 尾数 加 减 时 ,必须 把 隐藏 位 还 原 到 尾数 部 分 。 此 外 ,运算 过 程 中 ,在 尾数 右 移 时 
保留 的 附加 位 也 要 参加 运算 。 因 此 ,在 用 定点 原 码 小 数 进 行 尾 数 加 减 运算 时 ,在 操作 数 的 高 
位 部 分 和 低位 部 分 都 需要 进行 相应 的 调整 。 

进行 加 减 运算 后 的 尾数 不 一 定 是 规格 化 的 ,因此 , 浮 点 数 的 加 、 减 运算 需要 进一步 进行 
规格 化 处 理 。 

3. 尾数 规格 化 

IEEE 754 的 规格 化 尾数 形式 为 土 1. 55…6b。 在 进行 尾数 相 加 减 后 可 能 会 得 到 各 种 形式 
的 结果 ,例如 : 

1..50…: 十 1.00…0 = 土 16.660*…b 
1.660*%*b— 1.6bb*…b =+0.00.…01b***b 

(1) 对 于 上 述 结果 为 土 16. 56…b 的 情况 ,需要 进行 右 规 : 尾数 右 移 一 位 , 阶 码 加 1。 右 
规 操 作 可 以 表示 为 M,<-M, X271!,E,<E, 十 1]。 尾 数 右 移 时 ,最 高 位 1 被 移 到 小 数 点 前 一 位 
作为 隐藏 位 ,最 后 一 位 移出 时 ,要 考虑 舍 人 。 阶 码 加 1 时 ,直接 在 末 位 加 1。 

(2) 对 于 上 述 结 果 为 士 0.00…012…2 的 情况 ,需要 进行 左 规 : 数值 位 逐次 左 移 , 阶 码 逐 
次 减 1, 直 到 将 第 一 位 1 移 到 小 数 点 左边 。 假 定 为 结果 中 士 和 最 左边 第 一 个 1 之 间 连 续 0 
的 个 数 , 则 左 规 操作 可 以 表示 为 M < 一 M, X2 ,已 < 及 一 上 。 尾 数 左 移 时 数值 部 分 最 左 
& 个 0 被 移出 ,因此 ,相对 来 说 ,小 数 点 右 移 了 & 位 。 因 为 进行 尾数 相 加 时 ,默认 小 数 点 位 置 
在 第 一 个 数值 位 ( 即 隐藏 位 ) 之 后 ,所 以 小 数 点 右 移 & 位 后 被 移 到 了 第 一 位 1 后 面 , 这 个 1 就 
是 隐藏 位 。 执 行 EE 一 & 时 ,每 次 都 在 末 位 减 1, 一 共 减 人 次 。 

4. 尾数 的 舍 入 处 理 

在 对 阶 和 尾数 右 规 时 ,可 能 会 对 尾数 进行 右 移 ,为 保证 运算 精度 ,一 般 将 低位 移出 的 位 
保留 下 来 ,参加 中 间 过 程 的 运算 ,最 后 再 将 运算 结果 进行 舍 入 ,还 原 表示 成 IEEE 754 格式 。 
这 里 要 解决 以 下 两 个 问题 。 

(1) 保留 多 少 附加 位 才能 保证 运算 的 精度 ? 

(2) 最 终 如 何 对 保留 的 附加 位 进行 伟人 ? 

对 于 第 (1) 个 问题 ,可 能 无 法 给 出 一 个 准确 的 答案 。 但 是 不 管 怎么 说 ,保留 附加 位 应 该 
得 到 比 不 保留 附加 位 更 高 的 精度 。IEEE 754 标准 规定 ,所 有 浮 点 数 运算 的 中 间 结 果 右 边 都 
必须 至 少 额 外 保留 两 位 附加 位 。 这 两 位 附加 位 中 , 紧 跟 在 浮 点 数 尾数 右边 那 一 位 为 保护 位 
或 警戒 位 (guard) ,用 以 保护 尾数 右 移 的 位 ; 紧 跟 保护 位 右边 的 是 舍 入 位 (round), 左 规 时 可 
以 根据 其 值 进行 伟人 。 在 IEEE 754 标准 中 ,为 了 更 进一步 提高 计算 精度 ,在 保护 位 和 舍 和 信 
位 后 面 还 引入 了 额外 的 一 个 数位 , 称 为 粘 位 (sticky) ,只 要 伟人 位 的 右边 有 任何 非 0 数字 , 粘 
位 就 被 置 1 ;否则 , 粘 位 被 置 0。 

对 于 第 (2) 个 问题 ,IEEE 754 提供 了 以 下 可 选 的 4 种 模式 。 

(1) 就 近 舍 人 。 舍 人 为 最 近 可 表示 的 数 。 当 运算 结果 是 两 个 可 表示 数 的 非 中 间 值 时 ， 
实际 上 是 “0 舍 1 和 人 ”方式 ; 当 运 算 结果 正好 在 两 个 可 表示 数 中 间 时 ,根据 “就 近 舍 人 ”的 原则 
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就 无 法 操作 了 。IEEE 754 标准 规定 ,这 种 情况 下 结果 强迫 为 偶数 。 即 , 若 结果 的 LSB 为 1 
(〈 即 奇数 ) 时 , 则 末 位 加 1; 若 LSB 为 0( 即 偶数 ) 时 , 则 直接 截取 。 这 样 ,就 保证 了 结果 的 LSB 
总 是 0( 即 偶数 )。 使 用 粘 位 可 以 减少 运算 结果 正好 在 两 个 可 表示 数 中 间 的 情况 。 不 失 一 般 
性 ,用 一 个 十 进 制 数 计算 的 例子 来 说 明 这 样 做 的 好 处 。 

假设 计算 1. 24X10' 十 5. 03X10! (假定 科学 记 数 法 的 精度 保留 两 位 小 数 ) , 若 只 使 用 保 
护 位 和 舍 人 位 而 不 使 用 粘 位 , 则 结果 为 1. 2400X10 十 0.0050X10 二 1. 2450X10‘。 这 个 结 
果 位 于 两 个 相 邻 可 表示 数 1.24X10' 和 1.25X10' 的 中 间 , 采 用 就 近 舍 人 到 偶数 , 则 结果 应 该 
为 1.24X10'; 若 同时 使 用 保护 位 、 舍 人 位 和 粘 位 , 则 结果 为 1. 24000 X 10' 十 0. 00503X 10“ 一 
1.24503X104。 这 个 结果 就 不 在 1.24X10: 和 1.25X10: 的 中 间 , 而 更 接近 于 1.25X10, 采 
用 就 近 舍 入 方式 ,结果 应 该 为 1. 25X10' 。 显 然 ,后 者 更 精确 。 

(2) 朝 十 吕方 向 舍 人 。 总 是 取 右 边 最 近 可 表示 数 , 也 称 为 正 向 舍 入 或 朝 上 舍 信 。 

(3) 朝 一 吕方 向 舍 人 。 总 是 取 左 边 最 近 可 表示 数 , 也 称 为 负 向 舍 和 或 朝 下 舍 和 人。 

(4) 朝 0 方向 舍 和 信 。 直 接 截取 所 需 位 数 ,丢弃 后 面 所 有 位 ,也 称 为 截取 截断 或 恒 合 法 。 
这 种 舍 入 处 理 最 简单 。 对 正 数 或 负数 来 说 ,都 是 取 更 靠近 原点 的 那个 可 表示 数 , 是 一 种 趋向 
原点 的 会 入 ,因此 ,又 称 为 趋向 零 舍 入 。 

5. 溢出 判断 

在 进行 尾数 规格 化 和 尾数 合 人 时 ,可 能 会 对 结果 的 阶 码 执 行 加 、 减 运算 。 因 此 ,必须 考 
虑 结果 的 指数 溢出 问题 。 若 一 个 正 指数 超过 了 最 大 允许 值 (127 或 1023), 则 发 生 指 数 上 洲 ， 
机 器 产生 异常 ,也 有 的 机 器 把 结果 置 为 十 co ( 数 符 为 0 时 ) 或 一 c( 数 符 为 1 时 ) 后 ,继续 执行 
下 去 。 若 一 个 负 指 数 超过 了 最 小 允许 值 ( 一 149 或 一 1074) , 则 发 生 指 数 下 溢 ,此 时 ,一般 把 
结果 置 为 十 0( 数 符 为 0 时) 或 一 0( 数 符 为 1 时 ) ,也 有 的 机 器 引起 异常 。 

溢出 判断 实际 上 是 在 上 述 尾数 规格 化 和 尾数 会 入 过 程 中 进行 的 ,只 要 涉及 阶 码 求 和 / 
差 , 就 可 以 在 阶 码 运 算 部 件 中 直接 用 溢出 判断 电路 来 实现 。 在 上 述 运 算 过 程 中 ,涉及 阶 码 求 
和 / 差 的 情况 有 以 下 几 处 。 

(1) 右 规 和 尾数 舍 人 。 一 个 数值 很 大 的 尾数 伟人 时 ,可 能 因为 末尾 加 1 而 发 生 尾数 溢 
出 ,此 时 ,可 以 通过 右 规 来 调整 尾数 和 阶 。 右 规 时 阶 加 1, 导 致 阶 增 大 ,因此 需要 判断 是 否 发 
生 了 指数 上 洲 。 只 有 当 调 整 前 的 阶 码 为 11111110, 加 1 后 , 才 会 变 成 11111111 而 发 生 上 
洲 ; 如 果 右 规 前 阶 码 已 经 是 11111111, 则 右 规 后 变 为 00000000, 因 而 会 造成 判断 出 错 。 所 
以 , 右 规 前 应 先 判断 阶 码 是 否 为 全 1, 若 是 , 则 不 需 右 规 ,直接 置 结 果 为 指数 上 溢 ; 和 否则 , 阶 码 
加 1, 然 后 判断 阶 码 是 否 为 全 1 来 确定 是 否 指数 上 溢 。 

(2) 左 规 。 左 规 时 数值 位 逐次 左 移 , 阶 码 逐 次 减 1, 所 以 左 规 使 阶 码 减 小 , 故 需 判断 是 否 
发 生 指数 下 溢 。 其 判断 规则 与 指数 上 溢 类 似 , 首 先 判断 阶 码 是 否 为 全 0, 若 是 , 则 直接 置 结 
果 为 指数 下 溢 ;和 否则 , 阶 码 减 1, 然 后 判断 阶 码 是 否 为 全 0 来 确定 是 否 指数 下 滋 。 

从 浮 点 数 加 \ 减 运算 过 程 可 以 看 出 , 浮 点 数 的 溢出 并 不 以 尾数 溢出 来 判断 ,尾数 溢出 可 
以 通过 右 规 操作 得 到 纠正 。 运 算 结 果 是 否 溢出 主要 看 结果 的 指数 是 否 发 生 了 上 溢 ,因此 是 
由 指数 上 溢 来 判断 的 。 

综 上 所 述 ,规格 化 浮 点 数 加 减 运算 流程 如 图 3. 16 所 示 。 

例 3.9 用 IEEE 754 单 精度 浮 点 数 加 减 运算 计算 0. 5 十 (一 0.4375) 。 

解 : z 一 0.5 一 0. 100*…0B=(1. 00…0), X27 1!。 
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3.16 浮 点 数 加 减法 运算 流程 图 


y 一 一 0.4325 一 一 0.01110…0B 王 (一 1.110…0)。X2-。 
用 IEEE 754 标准 单 精 度 格式 表示 为 
[zj]s = 0 01111110 00…0， [yjx = 101111101 110…0 

所 以 ,[E,]$ 二 01111110,M,==0(1).0*…0,[E,]é#=01111101,M,=1(1). 110…0。 

尾数 M; 和 M, 中 小 数 点 前 面 有 两 位 ,第 一 位 为 数 符 ,第 二 位 加 了 括号 ,是 隐藏 位 1。 以 
下 是 计算 机 中 进行 浮 点 数 加 减 运算 的 过 程 (假定 保留 两 位 附加 位 : 保护 位 和 舍 人 位 )。 

(1) 对 阶 。 

[AEJ# =[LE,]#+[—[LE,]$j#C(mod 2") 一 0111 1110 十 1000 0011 王 0000 0001。 因 为 
AFE 一 1, 所 以 需要 对 y 进行 对 阶 。 即 y 的 尾数 M, 右 移 一 位 ,符号 不 变 , 数 值 高 位 补 0 ,隐藏 
位 右 移 到 小 数 点 后 面 ,最 后 移出 的 位 保留 两 位 附加 位 , 即 结果 为 下 ,一 正 .一 01111110,M, 一 
10. (1)110…000 。 

(2) 尾数 相 加 。 

AM 一 M. 十 M, 王 01. 0000…000 十 10. 1110…000( 注 意 小 数 点 在 隐藏 位 后 ) 。 根 据 3. 3. 2 
节 介 绍 的 原 码 加 减 运算 规则 ,得 结果 为 01. 0000…000 十 10. 1110…000 王 00. 00100…000。 
该 式 尾数 中 最 左边 第 一 位 是 符号 位 ,其 余 都 是 数值 部 分 ,尾数 后 面 两 位 是 附加 位 (加 粗 
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表示 )。 

(3) 规格 化 。 

所 得 尾数 的 数值 部 分 高 位 有 3 个 连续 的 0, 因 此 需 进 行 左 规 操作 ,即将 尾数 左 移 3 位 ， 
并 将 阶 码 减 3。 尾 数 左 移 时 数值 部 分 最 左 3 个 0 被 移出 ,小 数 点 右 移 了 3 位 后 , 移 到 了 第 一 
位 1 后 面 。 这 个 1 就 是 隐藏 位 。 因 此 ,得 M, 二 0(1).00…000000。 

阶 码 E,=E, 一 3==(((01111110 一 00000001) 一 00000001) 一 00000001)==0111 1011。 

在 计算 机 中 ,每 次 减 1 可 通过 加 [一 1]#( 即 十 11111111) 来 实现 。 

(4) 全 人 和信。 

把 结果 的 尾数 M, 中 最 后 两 位 附加 位 会 入 掉 , 从 本 例 来 看 ,不 管 采用 什么 舍 入 法 ,结果 
都 一 样 ,都 是 把 最 后 两 个 0 去 掉 , 得 M, 二 0(1).00…0000。 

(5) 溢出 判断 。 

在 上 述 阶 码 计 算 和 调整 过 程 中 ,没有 发 生 指数 上 溢 和 指数 下 溢 的 问题 。 因 此 , 阶 码 
B=0111 1011. 

经 过 上 述 5 个 步骤 ,最 终 得 到 结果 为 [x 十 yj# 二 0 01111011 00…0 。 

因为 01111011B=123, 所 以 ,结果 的 指数 为 123 一 127 王 一 4, 尾 数值 为 十 1.0…0B 一 
十 1.0, 所 以 zx 十 y 一 十 1.0X2- 一 1/16 一 0.0625。 

从 上 述 过 程 来 看 ,本 例 中 保留 的 两 位 附加 位 都 起 到 了 作用 ,最 终 都 作为 尾数 的 一 部 分 被 
保留 ( 即 最 终 M, 中 粗 体 的 00) ,如 果 最 初 没 保留 这 些 附 加 位 ,而 它们 又 都 是 非 0 值 的 话 , 则 
最 终结 果 的 精度 就 要 受 影响 。 


“3.4.2 浮 点 数 采 除 运算 


在 进行 浮 点 数 乘除 运算 前 ,首先 应 对 参加 运算 的 操作 数 进行 判 0 处理、 规格 化 操作 和 洲 
出 判断 ,确定 参加 运算 的 两 个 操作 数 是 正常 的 规格 化 浮 点 数 。 
浮 点 数 乘 、 除 运算 步骤 类 似 于 浮 点 数 加 ` 减 运算 步 又 ,两 者 的 主要 区 别 是 : 加 \ 减 运算 需 
要 对 阶 ,而 对 乘 、 除 运算 来 说 ,无 须 这 一 步 。 两 者 对 结果 的 后 处 理 步 又 也 一 样 ,都 包括 规格 
化 、 舍 人 和 溢出 判断 处 理 。 
已 知 两 个 浮 点 数 z 一 M-X22 ,y 一 M,X22 , 则 乘 、 除 运算 的 结果 如 下 : 
zXy= (M, X25)XM, X25) = MU, XM) X22 
xz/y = (M, X25=)/(M, X25) = (M,/M,) X 2 5 
下 面 分 别 给 出 浮 点 数 乘法 和 浮 点 数 除法 的 运算 步骤 。 
1. 浮 点 数 乘 法 运算 
假定 xz 和 >y 是 两 个 IEEE 754 标准 规格 化 浮 点 数 ,其 相 乘 结 果 为 Mi X2% , 则 求 M, 和 
E, 的 过 程 如 下 。 
(1) 尾数 相 乘 ,指数 相 加 。 
尾数 的 乘法 运算 M, 一 M, XM, 可 以 采用 3. 3.4 节 中 介绍 的 定点 原 码 小 数 乘法 算法 。 
在 运算 时 ,需要 将 隐藏 位 1 还 原 到 尾数 中 ,并 注意 乘积 的 小 数 点 位 置 。 因 为 x 和 yy 是 规格 化 
浮 点 数 ,所 以 其 尾数 M, 和 M, 的 真 值 形式 都 是 士 1. 66…6b。 进 行 尾数 相 乘 时 ,符号 和 数值 部 
分 分 开 运 算 , 符 号 由 xz 和 yy 两 数 符号 异 或 得 到 ,数值 部 分 将 两 个 形 为 1. 22…2 的 定点 无 符号 
数 进行 n 位 数 乘法 运算 ,其 结果 为 2n 位 乘积 : 02. 20…28 ,小数 点 应 该 默认 在 第 二 位 和 第 三 位 
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之 间 ( 这 里 的 盖 取决 于 机 器 所 设 定 的 运算 精度 ) 。 

指数 的 相 加 运算 E, 二 EE, 十 E, 采用 移 码 相 加 运算 算法 。 假 设 忆 为 指数 ,因为 IEEE 754 
单 精度 格式 浮 点 数 的 偏 置 常数 为 127, 所 以 ,[LE]# 王 127 十 已 。 根 据 IEEE 754 标准 的 阶 码 的 
定义 ,得 到 指数 的 加 法 运算 规则 如 下 : 

[E+E,]s =127+E,+E,=127+E,+127+E,—127 
=[Ejg +[E,Jg—127 
一 [E.]e 十 [PE,]e 十 [一 127]# 
一 [E.]z 十 [E,]s 十 10000001Cmod 2:) 
所 以 ,得 到 指数 加 法 运算 公式 为 [已 ]#<LE.]e 十 [E,]z 十 129Cmod 28) 。 

例如 ,对 于 两 个 指数 10 和 一 5, 计 算 其 和 的 过 程 如 下 : [E.]# 王 127 十 10=137 一 
1000 1001B,[E,]# 一 127 十 (一 5) 王 122 一 0111 1010B, 将 [Ej]g 和 [E,jg 代 入 上 述 公式 ,得 
[E,js =[E,Jg+t+[LE,]g+129=1000 1001 十 0111 1010 十 1000 0001 (mod 28 ) = 1000 
0100B, 对 应 十 进 制 132, 因 此 指数 的 和 为 132 一 127==5, 正 好 等 于 10 十 (一 5)。 

(2) 尾数 规格 化 。 

对 于 IEEE 754 标准 的 规格 化 尾数 M, 和 M, 来 说 ,一 定 满足 以 下 条 件 : | M, | 宇 1， 
| M, | 宇 1, 因 此 ,两 数 乘积 的 绝对 值 应 该 满足 1<| M, XM,|<4。 

也 就 是 说 ,在 得 到 的 2n 位 乘积 数值 部 分 56. 55…6 中 ,小 数 点 左边 一 定 至 少 有 一 个 1 ,可 
能 是 01、10、11 三 种 情况 ,若是 01, 则 不 需要 规格 化 ;若是 10 或 11, 则 需要 右 规 一 次 ,此 时 ， 
Mi 右 移 一 位 , 阶 码 LE ] 交 加 1。 规 格 化 后 得 到 的 尾数 数值 部 分 的 形式 为 01.60…5 ,小数点 左 
边 的 1 就 是 隐藏 位 。 对 于 IEEE 754 浮 点 数 的 乘法 运算 不 需要 进行 左 规 处 理 。 

(3) 尾数 会 人 处 理 。 

对 M, XM, 规格 化 后 得 到 的 尾数 形式 为 士 01. 55…6, 其 中 小 数 点 后 面 有 2n 一 2 位 尾数 
积 , 最 终 的 结果 肯定 只 能 有 24 位 尾数 ( 单 精度 ) 或 53 位 尾数 ( 双 精 度 )。 因 此 ,需要 对 乘积 的 
低位 部 分 进行 舍 信 ,其 处 理 方法 同 浮 点 数 加 减 运算 中 的 舍 入 操作 。 

(4) 溢出 判断 。 

在 进行 指数 相 加 ` 右 规 和 伟人 时 ,要 对 指数 进行 溢出 判断 。 右 规 和 伟人 时 的 溢出 判断 与 
浮 点 数 加 减 运算 中 的 溢出 判断 方法 相同 。 而 在 进行 指数 相 加 时 的 溢出 判断 则 要 根据 
[LE-]#、[E,]z 和 [PE]# 最 高 位 的 取 值 情况 进行 ,其 判断 规则 如 下 : 

Q@ 若 LE, J 是 全 1, 或 者 [E, jg 和 [E, jg 的 最 高 位 都 是 1 而 [E]# 最 高 位 是 0, 则 指数 
上 洲 。 

@ 若 LE ]$ 是 全 0, 或 者 LE, jg 和 [LE,jé 的 最 高 位 都 是 0 而 LE jg 最 高 位 是 1, 则 指数 
下 洲 。 

对 于 情况 @ , 若 LE.]zs 和 [E,]# 的 最 高 位 都 是 1, 说 明 两 个 指数 都 是 正 数 , 相 加 后 只 可 能 
更 大 ,并 且 可 能 大 于 最 大 指数 , 若 相 加 后 [已 ]# 最 高 位 是 0 ,说明 反 而 得 到 了 一 个 负 阶 ,那么 ， 
一 定 发 生 了 指数 上 溢 。 对 于 情况 O@ , 若 LE. js 和 [E,]# 的 最 高 位 都 是 0, 说 明 两 个 指数 都 是 
负数 , 相 加 后 只 可 能 是 更 小 的 负 指 数 ,并 且 可 能 小 于 最 小 指数 ,所 以 ,车 相 加 后 LE, ]# 最 高 位 
是 1, 说 明 得 到 的 是 一 个 正 指数 ,那么 ,一 定 发 生 了 指数 下 洲 。 

2. 浮 点 数 除法 运算 

假定 x 和 y 是 两 个 IEEE 754 标准 规格 化 浮 点 数 ,其 相 除 结果 为 MX 2 , 则 求 M。 和 
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E, 的 过 程 如 下 。 

(1) 尾数 相 除 , 阶 相 减 。 

尾数 的 除法 运算 Ms 二 M;/M, 可 以 采用 3. 3.7 节 中 介绍 的 定点 原 码 小 数 除法 算法 。 运 
算 时 需 将 隐藏 位 1 还 原 到 尾数 中 。 因 为 x 和 yy 是 规格 化 浮 点 数 ,所 以 M, 和 M, 的 真 值 形 
式 都 是 士 1.20…2 ,进行 尾 数 相 除 时 ,符号 和 数值 部 分 分 开 运 算 ,符号 由 xz 和 y 两 数 符号 异 或 
得 到 ,数值 部 分 将 两 个 形 为 1. 55…b 的 定点 无 符号 数 在 ?位 无 符号 数 除 法 运算 部 件 中 进行 
运算 ,其 结果 为 nn 位 商 6.85…6b ,小数 点 应 该 默认 在 第 一 位 和 第 二 位 之 间 ( 这 里 的 n 取决 于 机 
器 所 设 定 的 运算 精度 ) 。 

指数 相 减 运算 EE, 二 EE, 一 E, 采用 移 码 相 减 运 算 算法 。 根 据 IEEE 754 单 精 度 格 式 浮 点 
数 的 阶 码 的 定义 ,其 指数 的 减法 运算 规则 如 下 : 

[E,—E,Js =127+E,—E,=127+E,— (127+E,)+127 
=[E,j# — [LE,jg++127 
=[E,J]# 二 [—[E,]#j# 十 01111111 (mod 2:) 

所 以 ,得 到 指数 的 减法 运算 公式 为 [Es jg 一 [EJs 十 [一 [E,jgj]# 十 127 (mod 2*)。 

例如 ,对 于 两 个 指数 10 和 一 5, 计 算 其 差 的 过 程 如 下 : [E,j]8 一 127 十 10=137 一 
1000 1001B,[E,Js=127+(—5)=122=0111 1010B,[—[E,]gjJ#=1000 0110B, 将 [E, js 
和 [LE,] 代 入 上 述 公式 ,得 [E, jg 二 [LE,j]g 十 [一 LE, jg] 补 十 127 二 1000 1001 十 1000 0110 十 
0111 1111(mod 2*) 二 1000 1110B, 对 应 十 进 制 142, 因 此 ,两 个 指数 的 差 为 142 一 127 一 15， 
正好 等 于 10 一 (一 5)。 

(2) 尾数 规格 化 。 

对 于 IEEE 754 标准 的 规格 化 尾数 M, 和 M, 来 说 ,一 定 满足 以 下 条 件 : | M, | 1， 
1M, | 三 1, 因 此 ,两 数 相 除 的 绝对 值 应 该 满足 1/2<| M;/M, | 二 2。 

也 就 是 说 ,数值 部 分 得 到 的 位 商 5.50…b 中 小 数 点 左边 的 数 可 能 是 0, 也 可 能 是 1。 若 是 
0, 则 小 数 点 右边 的 第 一 位 一 定 是 1, 此 时 ,需要 左 规 一 次 , 即 尾数 M, 左 移 一 位 , 阶 码 [E jg 
减 1; 若 是 1, 则 结果 就 是 规格 化 形式 。 规 格 化 后 得 到 的 尾数 数值 部 分 的 形式 为 1. 66…6, 小 数 
点 左边 的 1 就 是 隐藏 位 。 对 于 IEEE 754 浮 点 数 的 除法 运算 不 需要 进行 右 规 处 理 。 

(3) 尾数 合 人 处 理 。 

对 M./M, 规格 化 后 得 到 的 尾数 形式 为 士 1.22…2, 其 中 小 数 点 后 面 有 ”一 1 位 尾数 商 ， 
因此 ,需要 对 商 的 低位 部 分 进行 伟人 ,其 处 理 方法 同 浮 点 数 加 减 运算 中 的 伟人 操作 。 

(4) 溢出 判断 。 

在 进行 指数 相 减 、 左 规 和 舍 人 时 ,要 对 指数 进行 溢出 判断 。 左 规 和 舍 入 时 的 溢出 判断 与 
浮 点 数 加 / 减 运 算 中 的 溢出 判断 方法 相同 。 而 指数 相 减 时 的 溢出 判断 则 要 根据 LE, jg 、 
[E,]# 和 [Ej]$ 最 高 位 的 取 值 情况 进行 ,其 判断 规则 如 下 : 

QO@ 若 [E,]g 是 全 1, 或 者 [E, jg 最 高 位 是 1 且 [E,]z 和 [已 ]# 最 高 位 都 是 0, 则 指数 
上 溢 。 

@ 若 LE, jg 是 全 0, 或 者 LE,.]z# 最 高 位 是 0 且 [E,]js 和 [已 ]# 最 高 位 都 是 1, 则 指数 
下 洲 。 

对 于 情况 @ ,如 果 一 个 正 指数 减 掉 一 个 负 指 数 得 到 一 个 负 指 数 ,那么 说 明 一 定 发 生 指数 
上 浇 。 对 于 情况 @, 如 果 一 个 负 指 数 减 掉 一 个 正 指数 得 到 一 个 正 指数 ,那么 说 明 一 定 发 生 指 
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数 下 溢 。 
3.5 运算 部 件 的 组 成 


前 面 分 别 介绍 了 各 种 定点 数 的 运算 方法 和 浮 点 数 的 运算 方法 ,综合 考虑 这 些 运 算 方法 
后 ,发 现 所 有 的 运算 都 以 加 减 操作 和 移 位 操作 为 基础 。 因 此 ,以 一 个 或 多 个 ALU 为 核心 ， 
加 上 移 位 器 和 存放 中 间 临 时 结果 的 若干 寄存 器 ,在 相应 控制 逻辑 的 控制 下 ,就 可 以 实现 各 种 
运算 。 所 谓 运 算 部 件 ,通常 就 是 指 ALU \ 移 位 器 、 存 放 临 时 数据 的 寄存 器 ,加 上 用 于 数据 选 
择 的 多 路 选择 器 和 实现 数据 传送 的 总 线 等 构成 的 一 个 运算 数据 通路 。 这 种 运算 数据 通路 可 
以 专门 用 一 个 运算 器 芯片 来 实现 ,也 可 以 用 若干 个 运算 器 芯片 级 联 起 来 构成 一 个 更 大 的 运 
算 器 来 实现 ,当然 也 可 以 和 控制 逻辑 混合 做 在 同一 个 CPU 芯片 里 。 

现代 计算 机 一 般 都 把 运算 部 件 和 控制 逻辑 做 在 同一 个 CPU 中 ,而 且 为 了 实现 多 条 指 
令 流 水 线 , 一 个 CPU 中 会 有 多 个 运算 部 件 。 广 义 上 来 说 ,用 于 执行 一 个 特定 功能 的 部 件 都 
可 以 看 成 是 一 个 运算 部 件 , 如 执行 定点 加 减 运算 的 ALU、 执 行 乘 ( 除 ) 运 算 的 阵列 乘除) 法 
器 、 专 门 的 存储 访问 部 件 , 浮 点 运算 部 件 等 。 通 常 把 一 个 这 样 的 运算 部 件 称 为 一 个 执行 部 件 
或 功能 部 件 。 

专门 的 运算 器 芯片 或 CPU 芯片 中 的 运算 部 件 是 计算 机 中 数据 通路 的 主要 部 分 ,所 以 ， 
数据 通路 和 运算 器 在 有 些 场合 下 属于 同一 个 概念 。 


“3.5.1 定点 运算 部 件 


定点 运算 部 件 用 来 实现 无 符号 整数 和 带 符号 整数 的 各 种 运算 ,一 套 完 整 的 定点 运算 部 
件 , 除 了 核心 部 件 ALU 外 ,还 需要 有 通用 寄存 器 组 (或 累加 器 )、 多 路 选择 器 .状态 (标志 ) 寄 
存 器 、 移 位 器 和 用 来 传送 数据 的 数据 总 线 等 。 也 就 是 说 ,如 果 要 实现 一 个 专门 的 定点 运算 器 
芯片 ,那么 ,该 芯片 中 需 包 含 ALU .通用 寄存 器 组 、 多 路 选择 器 、 移 位 器 等 ;如 果 在 CPU 中 用 
数据 通路 来 实现 定点 运算 ,那么 ,数据 通路 中 必须 包含 同样 的 这 些 部 件 。 

图 3.17 是 AM2901A 的 内 部 逻辑 框图 。 它 是 一 个 典型 的 4 位 定点 运算 器 芯片 。 

从 图 3.17 可 以 看 出 ,AM2901A 的 核心 是 一 个 4 位 ALU。 该 ALU 可 以 实现 A 加 了 B、 
A 减 B.B 减 A 三 种 算术 运算 和 “与 "“ 或 "“ 非 ”等 5 种 逻辑 运算 。ALU 的 功能 由 中 央 控 制 
部 件 (CCU) 对 外 部 操作 信号 fi-s (通常 是 指令 操作 码 ) 译 码 送出 的 控制 信号 进行 控制 。 
ALU 有 一 个 进位 输入 信号 C,、 进 位 输出 信号 C+ 、 组 进位 传递 /溢出 信号 P" /O、 组 进位 生 
成 /符号 信号 G/N。 在 芯片 串 行 级 联 时 ,进位 输入 信号 C。 和 进位 输出 信号 C,+4 可 用 来 进 
行 串 行进 位 传递 。 在 进行 多 级 芯片 级 联 时 ,后 面 两 个 信号 P/O 和 G*/N 分 别 用 作 组 进位 
传递 信号 P* 和 组 进位 生成 信号 G” 。 对 于 级 联 中 的 最 高 一 个 4 位 芯片 ,其 进位 输出 信号 
C,+4 用 作 进 位 标志 ,后 面 两 个 信号 P* /O 和 G/N 分 别 用 作 溢 出 标志 O 和 符号 标志 N。 

芯片 中 有 一 个 4 位 双 口 通用 寄存 器 组 (General Register Set,GRS), 其 中 有 16 个 寄存 
器 。GRS 有 一 个 写 入 口 和 两 个 读 出 口 A 和 B,A。-_: 用 来 指定 读 出 寄存 器 A 的 编号 , Bo: 用 
来 指定 写 人 寄存 器 或 读 出 寄存 器 B 的 编号 。A 口 和 B 口 可 以 同时 读 出 ,分 别 通 过 锁 存 器 
LA 和 LB 送 到 多 路 选择 器 MUX 的 输入 端 。 

多 路 选择 器 MUX 用 于 选择 不 同 的 操作 数 送 ALU 运算 ,ALU 的 A 输入 端 可 能 来 自 寄 
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图 3.17 AM2901A 芯片 的 内 部 逻辑 框图 


存 器 A 口 或 从 存储 器 来 的 数据 DA,_:;ALU 的 了 B 输 入 端 可 能 来 自 寄存 器 B 口 .存储 器 数据 
DB, :或 Q 寄存 器 。MUX 的 控制 信号 来 自 CCU ,通过 对 外 部 操作 信号 I。_s 译 码 ,CCU 将 
控制 信号 送 到 MUX 的 控制 端 ,以 确定 把 哪个 操作 数 送 到 ALU 运算 。 

该 芯片 中 有 一 个 Q 寄存 器 ,主要 用 于 实现 乘除 运算 。 乘 法 运算 中 的 部 分 积 和 除法 运算 
中 的 中 间 余 数 都 是 双 倍 字 长 的 数据 ,需要 放 到 两 个 单 倍 字 长 寄存 器 中 ,并 需要 对 这 两 个 单 倍 
字 长 寄存 器 同时 串 行 左 移 ( 除 法 ) 或 右 移 (乘法 ) 。 这 里 ,Q 寄存 器 就 是 在 乘法 中 的 乘 数 寄存 
器 ,或 是 除法 中 的 商 寄 存 器 。 因 此 ,也 被 称 为 Q 乘 商 寄存 器 。 

芯片 中 有 两 个 移 位 寄存 器 ,每 次 ALU 运算 的 结果 都 被 送 到 ALU 移 位 寄存 器 中 ,然后 
和 Q 移 位 器 一 起 进行 左 移 或 右 移 , 移 位 后 ALU 移 位 器 的 内 容 送 到 ALU 继续 进行 下 次 运 
算 , 而 Q 移 位 器 的 内 容 被 送 到 Q 乘 商 寄存 器 中 。 将 ALU 的 结果 进行 判 零 后 可 通过 Z 输出 
端 将 零 标志 信息 输出 ,Y 输入 /输出 端 可 以 在 存储 器 和 寄存 器 之 间 传 送 数据 。 

AM2901A 芯片 可 以 相互 连接 构成 更 长 位 数 的 定点 运算 器 ,例如 ,用 4 个 AM2901A 芯 
片 串联 可 以 构建 一 个 串 行 进位 方式 的 16 位 定点 运算 器 ,用 一 个 AM2902 芯片 (CLA 部 件 ) 
和 4 个 AM2901A 芯片 按 两 级 先行 进位 方式 级 联 起 来 可 以 构建 一 个 16 位 并 行进 位 方式 的 
定点 运算 器 。 

对 于 定点 乘除 运算 来 说 ,可 以 通过 一 个 ALU 串 行 执行 于 次 加 减 运算 和 移 位 操作 来 实 
现 ,也 可 以 用 一 个 专门 的 阵列 乘法 器 和 阵列 除法 器 来 实现 。 前 者 速度 慢 , 但 成 本 低 ;后 者 速 
度 快 ,但 成 本 高 。 

目前 , 像 AM2901A 这 样 专门 的 运算 器 芯片 主要 用 在 一 些 特 定 场合 ,例如 ,用 来 构建 教 
学 计算 机 或 硬件 实验 平台 等 。 通 常情 况 下 ,一 台 通 用 计算 机 内 部 的 定点 运算 部 件 都 是 作为 
CPU 中 的 数据 通路 存在 。 根 据 指 令 是 串 行 执行 还 是 以 流水 线 方式 执行 ,可 以 有 不 同 的 数据 
通路 构建 方式 。 例 如 ,有 单 周 期 .多 周期 和 流水 线 等 数据 通路 构建 方式 。 因 为 数据 通路 属于 
CPU 的 一 部 分 ,所 以 有 关 定 点 运算 数据 通路 的 组 成 与 设计 将 在 第 5 章 中 详细 介绍 。 


第 


CD 


章 


计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





“3.5.2 浮 点 运算 部 件 


20 世纪 80 年 代 , 微 处 理 器 芯片 上 还 集成 不 了 很 多 晶体 管 , 浮 点 数 运算 部 件 和 定点 数 运 
算 部 件 很 难 集成 在 同一 块 微 处 理 器 芯片 中 ,因此 ,早期 的 机 器 采用 了 专门 的 浮 点 协 处 理 器 芯 
片 (FPU) 来 执行 浮 点 运算 。 如 Intel 公司 早期 的 8087 协 处 理 器 芯片 是 和 8086/8088 微 处 理 
器 配套 使 用 的 ,而 80287 协 处 理 器 芯片 和 80286 和 80386 配套 使 用 。 早 期 的 MIPS 处 理 器 
也 有 专门 的 浮 点 协 处 理 器 。 

随 着 集成 电路 技术 的 发 展 , 一 个 芯片 内 可 实现 的 逻辑 元 件 愈 来 您 多 。 因 此 ,自从 20 世 
纪 90 年 代 以 来 , 浮 点 运算 部 件 可 以 直接 集成 在 CPU 芯片 中 。 虽 然 浮 点 运算 部 件 和 定点 运 
算 部 件 集成 在 一 个 芯片 内 ,但 两 者 的 逻辑 是 分 开 的 。 也 就 是 说 CPU 中 有 专门 的 定点 运算 
部 件 和 浮 点 运算 部 件 。 而 且 , 存 放 定 点 数 的 寄存 器 和 存放 浮 点 数 的 寄存 器 也 是 分 开 的 。 几 
乎 现在 所 有 的 处 理 器 中 都 有 专门 的 浮 点 数 寄存 器 。 

根据 3.4 节 介绍 的 浮 点 数 加 减 运 算 和 浮 点 数 乘 除 运算 可 知 , 阶 码 运算 主要 是 移 码 的 加 
减 操作 ,尾数 运算 是 定点 原 码 小 数 的 加 减 乘除 运算 。 阶 码 运算 和 尾数 运算 分 开 进 行 ,因此 ， 
阶 码 运算 部 件 和 尾数 运算 部 件 也 是 分 开 的 。 图 3. 18 是 浮 点 数 加 减 运算 部 件 的 逻辑 结构 示 
意图 (虚线 表示 控制 信号 ,图 中 省 略 了 对 两 个 ALU 的 控制 信号 线 ) 。 
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图 3.18 浮 点 数 加 / 减 运算 部 件 的 逻辑 结构 


从 图 3.18 看 出 ,主要 的 部 件 有 一 个 大 ALU 和 一 个 小 ALU, 分 别 执行 尾数 加 减 和 指数 
相 减 。 每 一 步 动作 都 由 控制 逻辑 进行 控制 。 


运算 方法 和 运算 部 件 


第 一 步 : 由 控制 逻辑 控制 小 ALU 实现 指数 相 减 的 操作 ,得 到 的 阶 差 被 送 到 控制 逻辑 。 

第 二 步 : 由 控制 逻辑 根据 阶 差 的 符号 和 绝对 值 来 确定 如 何 进行 对 阶 。 其 中 ,控制 信号 
加 确定 结果 的 指数 是 E, 还 是 玉 , ,控制 信号 @@ 和 @ 确 定 是 对 M, 还 是 M, 进行 右 移 , 控 制 信 
号 四 确定 右 移 多 少 位 。 

第 三 步 : 由 控制 逻辑 控制 用 对 阶 后 的 尾数 在 大 ALU 中 进行 加 减 , 运 算 结果 被 送 到 控制 
逻辑 ,用 于 产生 用 于 规格 化 的 控制 信号 。 

第 四 步 : 根据 大 ALU 运算 结果 进行 规格 化 。 控 制 信号 @@ 和 @ 确 定 是 对 大 ALU 的 运 
算 结果 进行 规格 化 还 是 对 舍 入 结果 进行 规格 化 ,控制 信号 确定 尾数 是 左 移 还 是 右 移 ,控制 
信号 @ 确 定 阶 码 是 增加 还 是 减少 。 规 格 化 后 的 结果 被 送 到 舍 入 部 件 和 控制 逻辑 。 

第 五 步 : 由 控制 信号 @ 根 据 规格 化 后 的 结果 进行 舍 入 ,并 将 舍 入 的 结果 再 次 送 到 控制 
人 逻辑 ,以 确定 舍 入 后 是 否 还 是 规格 化 形式 , 若 不 是 , 则 需 继续 进行 一 次 规格 化 。 

从 上 述 执行 过 程 来 看 , 浮 点 运算 可 以 用 流水 化 的 形式 进行 。 目 前 CPU 中 的 浮 点 运算 
大 多 采用 流水 线 执行 方式 。 只 要 将 图 3. 18 所 示 的 逻辑 结构 稍 作 调整 就 可 以 实现 流水 线 方 
式 的 浮 点 运算 。 

对 于 浮 点 数 乘 除 运算 来 说 ,虽然 不 需要 对 阶 , 但 尾数 的 乘除 运算 比较 复杂 ,并 且 速 度 较 
慢 ,所 以 ,实现 起 来 比 加 减 运算 复杂 得 多 。 与 定点 数 乘除 运算 一 样 ,根据 机 器 性 能 /价格 的 不 
同 要 求 ,可 有 不 同 的 实现 方案 。 


3.6 本 章 小 结 


本 章 主要 介绍 计算 机 中 涉及 的 各 种 基本 运算 的 算法 及 其 实现 部 件 。 分 为 定点 数 运 
算 和 浮 点 数 运算 ,它们 各 自用 不 同 的 运算 部 件 实现 ,其 中 都 要 用 到 具有 基本 算术 运算 
和 逻辑 运算 功能 的 ALU ,而 ALU 中 的 核心 电路 是 加 法 器 ,因而 ,快速 加 法 器 的 实现 是 
非常 重要 的 。 

定点 数 运 算 由 专门 的 定点 运算 器 实现 ,其 核心 部 件 是 带 快速 加 法 器 的 ALU。 定 点 数 运 
算 包 括 移 位 运算 .扩展 运算 和 加 减 乘除 运算 。 逻 辑 移 位 对 无 符号 数 进行 ;算术 移 位 对 带 符号 
整数 进行 , 移 位 前 后 符号 位 不 变 ,否则 溢出 。 零 扩展 对 无 符号 整数 进行 ;符号 扩展 对 带 符号 
整数 进行 。 补 码 加 减 用 于 整数 加 减 运 算 ,符号 位 和 数值 位 一 起 运算 ,减法 用 加 法 实现 。 同 号 
相 加 时 , 若 结果 的 符号 不 同 于 加 数 的 符号 , 则 会 发 生 溢 出 。 原 码 加 减 用 于 浮 点 数 尾数 的 加 减 
运算 。 乘 法 运算 用 重复 进行 加 法 和 右 移 实现 。 补 码 乘法 用 于 带 符号 整数 乘法 运算 ,符号 位 
和 数值 位 一 起 运算 ,采用 布 斯 算法 或 MBA 算法 ; 原 码 乘法 的 符号 位 和 数值 位 分 开 运 算 , 数 
值 部 分 用 无 符号 数 乘法 实现 。 人 快速 乘法 器 可 用 基于 CSA 的 阵列 乘法 器 MBA 十 WT 乘法 
器 等 实现 。 除 法 运算 用 重复 进行 加 减 和 左 移 实现 。 

浮 点 数 运算 由 专门 的 浮 点 运算 器 实现 。 浮 点 加 减 运算 需要 经 过 对 阶 、 尾 数 相 加 减 、 规 格 
化 、 尾 数 合 和 信和 洲 出 判断 等 步骤 ; 浮 点 数 乘除 运算 时 ,尾数 用 定点 数 乘除 运算 实现 , 阶 码 用 定 
点 数 加 减 运 算 实 现 。 
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习 题 
1. 给 出 以 下 概念 的 解释 说 明 。 
算术 逻辑 部 件 (ALU) 行 波 进位 加 法 器 零 标志 (ZF) 
溢出 标志 (OF) 进位 / 借 位 标志 (CF) 符号 标志 (NF) 
布 斯 乘法 改进 布 斯 算法 MBA( 基 4 布 斯 算法 ) ”阵列 乘法 器 
进位 保存 加 法 器 (CSA) 对 阶 伟人 
保护 位 伟人 位 粘 位 
规格 化 浮 点 数 右 规 左 规 
指数 上 涪 指数 下 溢 数据 通路 
多 路 选择 器 桶 型 移 位 器 功能 部 件 
通用 寄存 器 组 (GRS) Q 乘 商 寄存 器 状态 /标志 寄存 器 


2. 简单 回答 下 列 问题 。 
(1) 为 何在 高 级 语言 和 机 器 语言 中 都 要 提供 按 位 运算 ? 为 何 高 级 语言 需要 提供 逻辑 运算 ? 按 位 运算 
和 人 逻辑 运算 的 差别 是 什么 ? 
(2) 如 何 进 行 逻辑 移 位 和 算术 移 位 ? 它们 各 用 于 哪 种 类 型 的 数据 ? 
(3) 移 位 运算 和 乘除 运算 具有 什么 关系 ? 
(4) 高 级 语言 中 的 运算 和 机 器 语言 ( 即 指令 ) 中 的 运算 是 什么 关系 ?假定 某 一 个 高 级 语言 源 程序 P 中 
有 乘 、 除 运算 ,但 机 器 M 中 不 提供 乘 、 除 运算 指令 , 则 程序 P 能 否 在 机 器 M 上 运行 ? 为 什么 ? 
(5) 为 什么 用 ALU 和 移 位 器 就 能 实现 定点 数 和 浮 点 数 的 所 有 加 \ 减 、 乘 、 除 运算 ? 
(6) 影响 加 法 运算 速度 的 关键 问题 有 哪些 ? 可 采取 什么 措施 ? 对 于 乘法 运算 呢 ? 
(7) 能 否 用 快速 乘法 器 实现 除法 运算 ? 如 何 实现 ? 
3. 考虑 以 下 C 语言 程序 代码 : 
int funcl (unsigned word) 
return (int) ((word<<24)>>24) 7 
} 
int func2 (unsigned word) 
t 
return ((int) word<<24 )>>24; 


} 


假设 在 一 个 32 位 机 器 上 执行 这 些 函 数 ,该 机 器 使 用 二 进 制 补 码 表 示 带 符号 整数 。 无 符号 数 采用 人 逻辑 
移 位 , 带 符号 整数 采用 算术 移 位 。 请 填写 表 3.3, 并 说 明 函数 funcl 和 func2 的 功能 。 
表 3.3 题 3 用 表 
w funcl(w) func2(w) 


机 器 数 值 机 器 数 值 机 器 数 值 
































运算 方法 和 运算 部 件 


4. 填写 表 3.4, 注 意 对 比 无 符号 数 和 带 符号 整数 的 乘法 结果 ,以 及 截断 操作 前 后 的 结果 。 


























表 3.4 题 4 用 表 
过 工 y ZzXy (截断 前 ) ZXy (截断 后 ) 
机 器 数 值 机 器 数 值 机 器 数 值 机 器 数 值 
无 符号 数 110 010 
二 进 制 补 码 110 010 
无 符号 数 001 111 
二 进 制 补 码 001 111 
无 符号 数 111 111 
二 进 制 补 码 111 111 


























5. 以 下 是 两 段 C 语言 代码 ,函数 arith() 是 直接 用 C 语言 写 的 ,而 optarith() 是 对 arith() 函数 以 某 个 确 
定 的 M 和 编译 生成 的 机 器 代码 反 编译 生成 的 。 根 据 optarith() 推 断 函 数 arith() 中 M 和 NN 的 值 各 是 多 
少 。 

#define M 

#define N 

int arith(int x, int y) 

{ 

int result=0; 
result=x* Mty/N; 


return result; 


int optarith(int x, int y) 


int t=x; 
x<<=4; 

x==t} 

if(y<0) y+=3; 
y>>=2; 
return x+y; 


} 


6. 设 4 一 A, 和 了 Bi 一 Bi 分 别 是 4 位 加 法 器 的 两 组 输入 ,Co 为 低位 来 的 进位 。 当 加 法 器 分 别 采 用 串 
行进 位 和 先行 进位 时 , 写 出 4 个 进位 C: 一 Ci 的 逻辑 表达 式 。 

7. 已 知 zx 二 10,y 一 一 6, 采 用 6 位 机 器 数 表示 。 请 按 如 下 要 求 计算 ,并 把 结果 还 原 成 真 值 。 

(1) 求 Lz 十 y]#,[z 一 y]# 。 

(2) 用 原 码 一 位 乘法 计算 [zxX yj]m。 

(3) 用 MBA( 基 4 布 斯 算法 ) 乘 法 计算 [xX yja。 

(4) 用 不 恢复 余数 法 计算 [zx/yjs 的 商 和 余数 。 

(5) 用 不 恢复 余数 法 计算 [z/yj 的 商 和 余数 。 

8. 若 一 次 加 法 需要 lns, 一 次 移 位 需要 0. 5ns。 请 分 别 计算 用 一 位 乘法 、 两 位 乘法 、 基 于 CRA 的 阵列 
乘法 .基于 CSA 的 阵列 乘法 4 种 方式 计算 两 个 8 位 无 符号 二 进 制 数 乘积 时 所 需 的 时 间 。 

9. 在 FEE 754 浮 点 数 运算 中 , 当 结 果 的 尾数 出 现 什么 形式 时 需要 进行 左 规 , 出 现 什么 形式 时 需要 进 
行 右 规 ? 如 何 进行 左 规 , 如 何 进 行 右 规 ? 
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10. 在 IEEE 754 浮 点 数 运算 中 ,如 何 判断 浮 点 运算 的 结果 是 否 溢出 ? 
11. 假设 浮 点 数 格式 为 : 阶 码 是 4 位 移 码 , 偏 置 常数 为 8, 尾 数 是 6 位 补 码 ( 采 用 双 符 号 位 ) 。 用 浮 点 运 
算 规则 分 别 计算 在 不 采用 任何 附加 位 和 采用 两 位 附加 位 (保护 位 、 舍 入 位 ) 两 种 情况 下 的 值 。( 假 定 对 阶 和 


右 规 时 采用 就 近 舍 人 到 偶数 方式 。) 
(1) (15/16)X27 十 (2/16) X25 (2) (15/16)X2’—(2/16) X25 
(3) (15/16) X25+(2/16) X27 (4) (15/16) X25—(2/16) X27 





12. 采用 IEEE 754 单 精度 浮 点 数 格式 计算 下 列表 达 式 的 值 。 
(1) 0.75+(—65. 25) (2) 0.75 一 (一 65.25) 





第 章 
4 指令 系统 


第 1 章 提 到 过 ,计算 机 硬件 只 能 识别 和 理解 机 器 语言 程序 ,用 各 种 高 级 语言 编写 的 源 程 
序 最 后 都 要 翻译 (汇编 .解释 或 编译 ) 成 以 指令 形式 表示 的 机 器 语言 才能 在 计算 机 上 执行 。 
计算 机 的 指令 有 微 指 令 、 机 器 指令 和 伪 ( 宏 ) 指 令 之 分 。 微 指令 是 微 程序 级 命令 ,属于 硬件 范 
畴 ; 伪 指 令 是 由 若干 机 器 指令 组 成 的 指令 序列 ,属于 软件 范畴 ;机 器 指令 介 于 二 者 之 间 , 处 于 
硬件 和 软件 的 交界 面 。 本 章 中 的 “指令 ?如 无 特殊 说 明 ,都 指 机 器 指令 。 

一 台 计 算 机 能 执行 的 机 器 指令 的 集合 称 为 该 机 的 指令 集 或 指令 系统 , 它 是 构成 程序 的 
基本 元 素 , 也 是 硬件 设计 的 依据 , 它 衡量 机 器 硬件 的 功能 ,反映 硬件 对 软件 支持 的 程度 。 系 
统 软件 直接 建立 在 硬件 支持 的 指令 基础 上 ,系统 程序 员 感 觉 到 的 计算 机 的 功能 特性 和 概念 
性 结构 就 是 指令 集体 系 结构 (Instruction Set Architecture,ISA) ,因此 ,ISA 设计 的 好 坏 直 
接 决定 计算 机 的 性 能 和 成 本 ,而 指令 系统 是 ISA 中 最 核心 的 部 分 ,因而 指令 系统 的 设计 至 
关 重 要 。 

本 章 介绍 指令 系统 设计 中 涉及 的 各 个 方面 ,主要 包括 指令 格式 .操作 类 型 .操作 数 类 型 
寻 址 方式 .操作 码 编码 指令 系统 的 风格 以 及 程序 的 机 器 级 表示 等 。 


4.1 指令 格式 设计 


4.1.1 指令 地 址 码 的 个 数 


冯 ，。 诺 依 曼 结构 计算 机 采用 “存储 程序 ”的 工作 方式 。 根 据 “ 存 储 程序 ”思想 ,计算 机 中 
的 程序 一 旦 被 启动 运行 , 则 必须 能 够 自动 地 逐条 从 主 存 取 出 指令 执行 。 也 就 是 说 ,不 仅 每 条 
指令 的 执行 过 程 是 自动 的 ,而 且 在 一 条 指令 执行 结束 后 能 够 自动 转 到 下 一 条 指令 执行 。 为 
此 ,一 条 指令 中 必须 明确 地 ( 显 式 ) 或 隐 含 地 包含 以 下 信息 。 

(1) 操作 码 。 指 定 操作 类 型 ,如 移 位 .加 \ 减 乘除、 传送 等 。 

(2) 源 操作 数 或 其 地 址 。 指 出 一 个 或 多 个 源 操作 数 或 其 所 在 的 地 址 ,可 以 是 主 ( 虚 ) 存 
地 址 .寄存器 编号 或 IO 端口 ,也 可 在 指令 中 直接 给 出 一 个 立即 数 。 

(3) 结果 的 地 址 。 结 果 所 存放 的 地 址 ,可 以 是 主 ( 虚 ) 存 地 址 、 寄 存 器 编号 或 IO 端口 。 

(4) 下 一 条 指令 地 址 。 下 一 条 指令 存放 的 地 址 ,可 以 是 主 ( 虚 ) 存 地 址 。 

有 了 上 述 (1) 一 (3) 项 信息 ,就 可 以 完成 一 条 指令 的 自动 执行 。 有 了 第 (4) 项 信息 ,就 可 
以 周而复始 地 自动 执行 一 条 条 指令 。 
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通常 ,下 一 条 指令 的 地 址 不 需要 在 指令 中 明确 地 给 出 ,而 是 隐 含 在 PC 中 。 指 令 按 顺序 
执行 时 ,只 要 自动 将 PC 的 值 加 上 指令 的 长 度 ,就 可 以 得 到 下 一 条 指令 的 地 址 , 当 遇 到 转移 
指令 而 不 按 顺 序 执行 时 , 需 由 指令 给 出 转移 到 的 目标 地 址 。 

综 上 所 述 可 知 ,一 条 指令 由 一 个 操作 码 和 几 个 地 址 码 构 成 。 根 据 指令 显 式 给 出 的 地 址 
个 数 ,指令 可 分 为 三 地 址 指令 、 二 地 址 指令 一 地 址 指令 和 零 地 址 指令 。 

三 地 址 指令 中 的 3 个 地 址 分 别 作 为 双 目 运算 中 两 个 源 操作 数 的 地 址 和 一 个 结果 的 地 
址 ;二 地 址 指令 中 给 出 的 两 个 地 址 分 别 存放 双 目 运算 中 两 个 操作 数 ,并 将 其 中 一 个 地 址 作为 
结果 的 地 址 ;对 于 一 地 址 指令 ,如果 是 单 目 运算 (如 取 反 / 取 负 等 ) 指 令 , 则 其 地 址 既是 操作 数 
的 地 址 ,也 是 结果 的 地 址 ,如 果 是 双 目 运算 , 则 另 一 个 操作 数 和 结果 可 以 默认 存放 在 累加 器 
中 ; 零 地 址 指令 可 能 本 身 就 无 操作 数 , 所 以 也 无 须 地 址 码 , 例 如 空 操作 指令 、 停 机 指令 等 ,对 
于 堆栈 型 指令 ,因为 操作 数 默认 在 栈 中 ,所 以 也 是 零 地 址 指令 。 


4.1.2 指令 格式 设计 原则 


指令 格式 的 选择 应 遵循 如 下 几 条 基本 原则 。 

(1) 指令 应 尽量 短 。 每 条 指令 长 度 短 ,使 得 程序 占用 存储 空间 小 ,降低 空间 开销 。 

(2) 要 有 足够 的 操作 码 位 数 。 向 后 兼容 使 指令 操作 类 型 不 断 增 加 ,因此 必须 预 留 足够 
的 操作 码 位 数 。 

(3) 操作 码 的 编码 必须 有 唯一 的 解释 。 操 作 码 最 终 需 送 到 指令 译 码 器 进行 译 码 , 因 此 ， 
指令 操作 码 要 么 是 一 个 唯一 的 合法 编码 ,要么 是 不 合法 的 0/1 序列 。 当 译 码 器 发 现 是 不 合 
法 操作 码 时 ,出 现 “ 非 法 指令 ”异常 。 

(4) 指令 长 度 应 是 字 节 的 整数 倍 。 指 令 存 放 在 内 存 ,而 内 存 往 往 按 字 节 编 址 ,因此 , 指 
令 长 度 为 字 节 的 整数 倍 ,便于 指令 的 读 取 和 指令 地 址 的 计算 。 

(5) 合理 选择 地 址 字段 的 个 数 。 地 址 字段 个 数 涉及 指令 的 长 度 和 指令 的 规整 性 问题 ， 
它 是 空间 开销 和 时 间 开 销 权 衡 的 结果 。 

(6) 指令 应 尽量 规整 。 指 令 的 规整 性 体现 在 许多 方面 : 指令 长 度 是 否 固定 ,操作 码 位 
数 是 否 固 定 , 地 址 码 格式 是 否 一 致 ,指令 字 中 各 字段 的 划分 位 置 是 否 一 致 等 。 规 整 的 指令 系 
统 会 大 大 简化 硬件 的 实现 。 


4.2 指令 系统 设计 


指令 系统 设计 是 计算 机 系统 结构 设计 的 关键 之 一 。 在 设计 指令 系统 时 ,必须 遵循 以 下 
基本 原则 。 

(1) 完备 性 或 完整 性 。 指 令 的 操作 类 型 应 尽量 完备 ,应 能 足够 编制 任何 可 计算 程序 。 
但 是 ,如 果 指 令 系统 太 复杂 ,也 会 给 硬件 实现 增加 困难 。 因 此 , 较 复杂 的 功能 可 以 通过 伪 指 

(2) 兼容 性 。 在 考虑 系列 机 设计 实现 时 ,高 档 机 的 指令 系统 应 兼容 以 前 低档 机 的 指令 
系统 ,这 给 软件 资源 重复 利用 带 来 方便 。 

(3) 均匀 性 。 运 算 指令 应 能 对 多 种 类 型 的 数据 进行 处 理 , 包 括 3 种 整数 ( 字 节 、 字 、 双 
字 ) 和 两 种 浮 点 数 ( 单 精度 和 双 精 度 浮 点 数 ) 类 型 。 


(4) 可 扩充 性 。 操 作 码 字段 要 预 留 一 定 的 编码 空间 ,以便 需 要 时 进行 扩充 。 
4.2.1 基本 设计 问题 


在 设计 一 个 指令 系统 时 ,需要 考虑 以 下 一 些 基本 问题 。 

(1) 操作 码 的 个 数 、 种 类 、 复 杂 度 如 何 选择 ? 

例如 , 若 指令 系统 中 共 包含 4 条 指令 : 取 数 指令 (load)、 存 数 指令 (store)、 自 增 指令 
(CINC) .分支 指令 (BRN), 则 用 这 4 条 指令 足以 编制 任何 可 计算 程序 。 不 过 ,虽然 这 4 条 指 
令 是 完备 的 ,但 会 导致 大 多 数 程序 变 得 很 长 , 既 占 空间 又 花 时 间 。 

(2) 运算 指令 能 对 哪 几 种 数据 类 型 进行 操作 ? 

高 级 语言 源 程序 中 需要 对 int、short 和 char 等 类 型 的 整 型 数据 ,以 及 float、double 等 浮 
点 类 型 数据 ,甚至 是 位 串 、 字 符 串 等 进行 操作 ,所 以 ,指令 设计 时 需要 考虑 指令 能 对 这 些 数据 
类 型 进行 相应 的 操作 。 

(3) 采用 什么 样 的 指令 格式 ? 

规整 型 指令 采用 定 长 指令 字 和 定 长 操作 码 ,使 得 取 指 令 、 指 令 译 码 、 指 令 地 址 计算 等 变 
得 简单 ,从 而 能 减少 时 间 开 销 ;但 是 ,规整 型 指令 在 空间 上 会 增加 开销 。 因 此 ,应 根据 设计 目 
标 选 择 采用 规整 型 还 是 紧凑 型 指令 格式 。 

(4) 通用 寄存 器 的 个 数 .功能 ,长度 等 如 何 规定 ? 

用 户 进程 的 指令 中 能 用 的 寄存 器 是 用 户 可 见 寄 存 器 ,也 称 为 通用 寄存 器 。 通 用 寄存 器 
多 , 则 编译 器 可 以 尽量 多 地 把 高 级 语言 源 程序 中 的 变量 分 配 到 通用 寄存 器 中 ,因而 减少 指令 
执行 时 访问 内 存 的 次 数 ,加 快 程序 运行 。 但 是 ,通用 寄存 器 过 多 会 使 寄存 器 存 取 延 迟 变 长 ， 
因而 影响 指令 执行 速度 ;此 外 ,还 可 能 使 寄存 器 编码 变 长 ,从 而 使 指令 长 度 变 长 ;通用 寄存 器 
多 还 会 增 大 CPU 成 本 ,占用 更 多 硅 片 面积 。 

通用 寄存 器 的 功能 分 配 也 很 重要 ,例如 ,要 考虑 是 否 要 有 专门 的 栈 指针 寄存 器 、 栈 帧 指 
针 寄 存 器 .过 程 调用 的 参数 寄存 器 .过 程 调用 的 返回 参数 寄存 器 .过 程 调用 的 返回 地 址 寄存 
器 ,是 否 要 有 记录 指令 执行 状态 的 标志 寄存 器 等 。 

此 外 ,还 要 考虑 每 个 寄存 器 的 长 度 , 以 及 寄存 器 的 设计 如 何 满足 多 种 不 同 长 度 的 数据 类 
型 。 例 如 ,Intel 体系 结构 IA-32 中 ,用 寄存 器 扩展 的 方式 提供 了 存放 8 位 .16 位 、32 位 等 多 
种 长 度 操作 数 的 寄存 器 ;而 MIPS 等 体系 结构 中 采用 的 是 固定 寄存 器 宽度 的 设计 方案 ,通过 
提供 不 同 的 指令 来 区 分 操作 数 的 长 度 。 

(5) 如 何 设计 寻 址 方式 的 种 类 和 编码 以 及 各 种 寻 址 方式 下 有 效 地 址 如 何 计算 ? 

寻 址 方式 字段 可 以 和 操作 码 一 起 编码 ,由 操作 码 确 定 每 个 操作 数 的 寻 址 方式 ,例如 ， 
MIPS 体系 结构 由 操作 码 确定 指令 类 型 ,指令 类 型 确定 后 ,每 个 操作 数 的 寻 址 方式 就 确定 
了 。 寻 址 方式 字段 也 可 单独 编码 ,例如 ,IA-32 指令 中 每 个 操作 数 都 有 各 自 专 门 的 寻 址 方式 
字段 。 

(6) 下 一 条 指令 的 地 址 如 何 确定 ? 

几乎 所 有 指令 系统 都 通过 一 个 专门 的 寄存 器 来 存放 下 一 条 指令 的 地 址 ,这 个 寄存 器 为 
程序 计数 器 (Program Counter,PC) 或 指令 指针 (Instruction Pointer,IP)。 顺 序 执行 时 , 指 
令 中 无 须 显 式 地 给 出 下 一 条 指令 地 址 ,默认 由 PC 指出 。 通 过 将 当前 PC 的 值 加 上 本 条 指令 
的 长 度 即 可 得 到 下 一 条 指令 地 址 ;转移 指令 等 可 能 改变 程序 执行 顺序 ,此 时 ,这 些 指令 中 必 
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须 有 相应 的 地 址 码 和 寻 址 方式 来 给 出 下 一 条 指令 地 址 或 下 一 条 指令 地 址 的 计算 方式 。 
当然 ,指令 系统 的 设计 所 涉及 的 远 远 不 限于 上 述 所 列 问题 ,在 具体 设计 过 程 中 ,还 需要 
考虑 很 多 细节 问题 。 


4.2.2 操作 数 类 型 


操作 数 是 指令 处 理 的 对 象 ,从 高 级 语言 程序 所 用 数据 类 型 来 看 ,指令 涉及 的 基本 操作 数 
类 型 应 该 包括 以 下 几 类 。 

(1) 指针 或 地 址 。 指 针 或 主 ( 虚 ) 存 地 址 通常 用 无 符号 整数 来 表示 。 

(2) 数值 数据 。 主 要 是 带 符号 整数 和 浮 点 数 。 带 符号 整数 用 二 进 制 补 码 表 示 , 浮 点 数 
大 多 用 IEEE 754 标准 表示 。 有 些 指令 系统 也 提供 十 进 制 数 运算 指令 ,一 般 用 NBCD 码 
(8421 码 ) 表 示 十 进 制 数 。 

(3) 位 ,位 串 、 字 符 和 字符 串 。 位 和 位 串 数据 一 般 用 来 表示 一 些 标志 ,控制 和 状态 等 信 
息 。 字 符 和 字符 串 数据 用 来 表示 文本 、 流 式 文件 基本 信息 等 。 

(4) 逻辑 布尔) 数据。 表示 逻 辑 值 。 

例如 ,IA-32 处 理 器 提供 的 基本 类 型 有 字 节 、 字 (16 位 )、 双 字 (32 位 )、 四 字 (64 位 )。 对 
于 整数 ,有 16 位 、32 位 .64 位 3 种 补 码 表示 的 整数 和 18 位 压缩 BCD 码 表 示 的 十 进 制 整 数 ; 
对 于 序数 ( 即 地 址 、 指 针 等 ), 有 字 节 、 字 或 双 字 长 的 无 符号 整数 ;对 于 浮 点 数 , 有 用 IEEE 754 
表示 的 32 位 单 精 度 浮 点 数 、64 位 双 精 度 浮 点 数 和 80 位 扩展 精度 浮 点 数 。 另 外 ,还 提供 了 
专门 的 近 指 针 类 型 数据 ,用 于 表示 不 分 段 存储 器 的 地 址 ,或 用 来 表示 段 内 偏 移 的 32 位 有 效 
地 址 ,以 进行 分 段 式 存储 器 的 段 内 访问 。 

有 关 以 上 各 类 数据 的 表示 、 存 放 和 运算 已 在 第 2 章 和 第 3 章 中 作 了 详细 介绍 。 


4.2.3 寻 址 方式 


指令 不 仅 要 规定 所 执行 的 操作 ,还 要 给 出 操作 数 或 操作 数 地 址 。 操 作 数 可 能 是 一 个 常 
数 , 或 一 个 简单 变量 ,或 是 数组 和 结构 中 的 某 个 元 素 ,也 可 能 是 栈 (stack) 中 的 元 素 ,还 可 能 
是 外 设 W/O 接口 中 的 状态 字 或 控制 字 等 。 从 指令 的 角度 来 看 ,操作 数 存放 位 置 可 以 是 
CPU 中 的 通用 寄存 器 存储 单元 和 I/O 端口。 通常 把 指令 中 给 出 的 操作 数 所 在 存储 单元 
的 地 址 称 为 有 效 地 址 ,存储 单元 地 址 可 能 是 主 存 物理 地 址 ,也 可 能 是 虚拟 地 址 。 如 果 不 
采用 虚拟 存储 机 制 , 有 效 地 址 就 是 主 存 物理 地 址 ; 若 采 用 虚拟 存储 机 制 , 则 有 效 地 址 就 是 
虚拟 地 址 。 

指令 给 出 操作 数 或 操作 数 地 址 的 方式 称 为 寻 址 方式 。 地 址 字段 长 度 直接 影响 指令 长 
度 ,因而 指令 地 址 码 要 尽量 短 ,但 操作 数 的 存放 位 置 又 必须 灵活 ,存放 空间 也 应 尽量 大 。 因 
此 ,指令 系统 应 能 提供 灵活 的 寻 址 方式 ,并 使 用 尽量 短 的 地 址 码 访问 尽 可 能 大 的 寻 址 空间 。 
此 外 ,为 加 快 指令 执行 速度 ,有 效 地 址 计算 过 程 也 应 尽量 简单 。 

常用 的 寻 址 方式 有 以 下 几 种 。 

1. 立即 寻 址 

在 指令 中 直接 给 出 操作 数 本 身 , 这 种 操作 数 称 为 立即 数 。 

2. 直接 寻 址 

指令 中 给 出 的 地 址 码 是 操作 数 的 有 效 地 址 ,这 种 地 址 称 为 直接 地 址 或 绝对 地 址 。 


3. 间接 寻 址 
指令 中 给 出 的 地 址 码 是 存放 操作 数 有 效 地 址 的 主 存单 元 地 址 。 图 4.1 所 示 的 是 单 级 间 
接 寻 址 过 程 , 还 可 有 多 重 间接 寻 址 。 格 式 中 的 @ 是 间接 
寻 址 标志 。 

4. 寄存 器 寻 址 
2 指令 中 给 出 的 地 址 码 是 操作 数 所 在 的 寄存 器 编号 ， 

) 操作 数 在 寄存 器 中 。 寄 存 器 寻 址 有 以 下 优点 。 

(1) 寄存 器 数量 远 小 于 内 存单 元 数 , 故 寄存 器 编号 
比 存储 地 址 短 , 因 而 寄存 器 寻 址 方式 的 指令 较 短 。 

(2) 操作 数 已 在 CPU 中 ,不 用 访 存 , 因 而 指令 执行 速度 快 。 

5. 寄存 器 间接 寻 址 

指令 中 给 出 的 地 址 码 是 一 个 寄存 器 编号 ,该 寄存 器 中 存放 的 是 操作 数 的 有 效 地 址 。 例 
如 ,8086 指令 “MOV AX,[BX]” 中 ,寄存 器 BX 内 容 为 有 效 地 址 ,有 效 地 址 处 所 在 的 内 容 是 
操作 数 , 被 送 入 AX 寄存 器 中 。 寄 存 器 间接 寻 址 指令 较 短 , 因 为 只 要 给 出 一 个 寄存 器 编号 而 
不 必 给 出 有 效 地 址 。 指 令 长 度 和 寄存 器 寻 址 指令 差不多 ,但 由 于 要 访 存 ,所 以 寄存 器 间接 寻 
址 指令 的 执行 时 间 比 寄存 器 寻 址 指令 的 执行 时 间 更 长 。 

6. 变 址 寻 址 

变 址 寻 址 方式 主要 用 于 对 线性 表 之 类 的 数组 元 素 进行 方便 的 访问 。 采 用 变 址 寻 址 方式 
时 ,指令 中 的 地 址 码 字段 A 给 出 一 个 基准 地 址 ,例如 数组 的 起 始 地 址 ,而 数组 元 素 相对 于 基 
准 地 址 的 偏 移 量 在 指令 中 明显 或 隐 含 地 由 变 址 寄存 器 工 给 出 ,这 样 , 变 址 寄存 器 (简称 变 址 
器 ) 的 内 容 实际 上 就 相当 于 数组 元 素 的 下 标 ,每 个 数据 元 素 的 有 效 地 址 为 基准 地 址 加 变 址 寄 
存 器 的 内 容 , 即 操作 数 的 有 效 地 址 EA 二 (了) 十 A, 其 中 (了 D 表 示 变 址 寄存 器 1 中 的 内 容 。 

如 果 任 何 一 个 通用 寄存 器 都 可 作为 变 址 寄存 器 , 则 必须 在 指令 中 明确 地 给 出 一 个 通用 
寄存 器 的 编号 ,并 标明 作为 变 址 寄存 器 用 ; 若 处 理 器 中 有 一 个 专门 的 变 址 寄存 器 , 则 无 须 在 
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指令 中 明确 给 出 。 指 令 中 的 地 址 码 字段 称 为 形式 地 址 ,这 pj 各 民明 
里 的 形式 地 址 是 基准 地 址 A, 而 变 址 寄存 器 中 存放 的 是 偏 3 —A A[0] 
移 量 。 9 A[1] 

例如 ,8086 指令 “MOV AL,[SI 十 1000HJ]” 中 的 SI 为 A[2] 
变 址 寄存 器 ,1000 为 形式 地 址 ,SI 的 内 容 加 上 1000H 形 A A 
成 操作 数 的 有 效 地 址 。 











如 图 4.2 所 示 ,指令 中 的 地 址 码 A 给 定数 组 在 存储 ”图 4.2 数组 元 素 的 变 址 寻 址 
器 中 的 首 地 址 , 变 址 寄存 器 I 每 次 自动 加 或 减 数组 元 素 的 
长 度 。 

例如 ,对 于 高 级 语言 语句 for(i 二 0;i 过 N;i 十 十 ){A[]==…}) ,数组 元 素 将 沿 低地 址 向 高 
地 址 方向 访问 ,此 时 应 是 自动 加 ;对 于 语句 for(i 二 N 一 1;i>==0;i 一 一 ){A[ 订 ==…)}), 数 组 元 
素 将 沿 高 地 址 向 低地 址 方向 访问 ,此 时 应 自动 减 。 

在 按 字 节 编 址 的 情况 下 ,车 每 个 数组 元 素 为 一 个 字 节 时 , 则 I= (D 土 1; 若 每 个 元 素 为 4 
个 字 节 时 , 则 I= (DD 土 4。 例 如 ,假定 图 4.2 中 的 数组 元 素 占 一 个 字 节 ,存储 器 按 字 节 编 址 ， 
对 应 的 高 级 语言 语句 为 for(i 二 0;i 二 N;i 十 十 ){A[]==…}), 则 在 对 应 的 循环 体 中 ,第 一 次 变 
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址 寄存 器 I 的 值 为 0, 执行 取 数 指令 取出 A[0J 后 ,I 自动 变 为 1, 第 二 次 执行 循环 体 时 , 取 数 
指令 就 能 取出 AL1]…… 如 此 循环 ,以 实现 高 级 语言 对 应 语句 的 功能 。 

某 些 计 算 机 中 还 允许 变 址 与 间 址 结合 使 用 。 假 定 指令 中 给 出 的 变 址 寄存 器 为 I, 形 式 
地 址 为 A, 则 先 变 址 后 间 址 时 ,操作 数 的 有 效 地 址 为 EA=((D 十 A) , 称 为 前 变 址 ; 先 间 址 后 
变 址 时 , 则 EA= (ID 十 (A) , 称 为 后 变 址 。 

7. 相对 寻 址 

如 果 某 指令 的 操作 数 的 有 效 地 址 或 转移 目标 地 址 位 于 该 指令 所 在 位 置 的 前 、 后 某 个 固 
定位 置 上 , 则 该 操作 数 或 转移 目标 可 用 相对 寻 址 方式 。 采 用 相对 寻 址 方式 时 ,指令 中 的 地 址 
码 字段 A 给 出 一 个 偏 移 量 ,基准 地 址 隐 含 由 PC 给 出 , 即 操作 数 有 效 地 址 或 转移 目标 地 址 
EA 二 (PC) 十 A。 这 里 的 偏 移 量 A 是 形式 地 址 ,有 效 地 址 或 目标 地 址 可 以 在 当前 指令 之 前 
或 之 后 ,因而 偏 移 量 A 是 一 个 带 符号 整数 。 

显然 ,相对 寻 址 方式 可 用 来 实现 公共 子 程序 的 浮动 或 实现 相对 转移 。 

8. 基 址 寻 址 

基 址 寻 址 方式 下 ,指令 中 的 地 址 码 字 段 A 给 出 一 个 偏 移 量 , 基准 地 址 可 以 明显 或 隐 含 地 
由 基 址 寄存 器 B 给 出 。 操 作 数 有 效 地 址 EA 二 (B) 十 A。 与 变 址 方式 一 样 , 若 任 意 一 个 通用 寄 
存 器 都 可 用 作 基 址 寄存 器 , 则 指令 中 必须 明确 给 出 通用 寄存 器 编号 ,并 标明 用 作 基 址 寄存 器 。 

基 址 寻 址 过 程 如 图 4. 3 所 示 , 其 中 , 基 址 寄存 器 R 可 以 指定 为 任何 一 个 通用 寄存 器 。 
寄存 器 R 的 内 容 是 基准 地 址 ,加 上 形式 地 址 A, 形 成 操作 数 有 效 地 址 。 基 址 寻 址 为 逻辑 地 
址 到 物理 地 址 变换 提供 了 支持 ,用 以 实现 程序 的 动态 重 定位 。 
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图 4.3 基 址 寻 址 过 程 


变 址 、 基 址 和 相对 3 种 寻 址 方式 非常 类 似 , 都 是 将 某 个 寄存 器 的 内 容 与 一 个 形式 地 址 相 
加 来 生成 操作 数 的 有 效 地 址 。 通 常 把 它们 统称 为 偏 移 寻 址 。 

9. 其 他 寻 址 方式 

为 缩短 指令 字 长 度 , 有 些 指令 采用 隐 含 地 址 码 方式 。 即 在 指令 中 不 明显 给 出 操作 数 地 
址 或 变 址 寄存 器 和 基 址 寄存 器 编号 ,而 是 由 操作 码 隐 含 指出 。 例 如 ,一 地 址 指令 中 只 给 出 一 
个 操作 数 地 址 , 另 一 个 操作 数 隐 含 规定 为 累加 器 中 的 内 容 ; 此 外 ,还 有 堆栈 操作 指令 ,其 操作 
数 隐 含 为 栈 顶 元 素 ,指令 中 无 须 明 显 指出 操作 数 地 址 。 


4.2.4 操作 类 型 
指令 系统 的 完备 性 要 求 在 设计 指令 系统 时 必须 考虑 指令 系统 应 提供 哪些 操作 类 型 。 对 


大 多 数 指令 系统 考察 后 得 知 ,指令 操作 类 型 按 功能 分 为 以 下 几 种 。 

1. 算术 和 逻辑 运算 指令 

这 类 指令 有 加 (ADD) 、 减 (SUB)、 比 较 (CMP)、 乘 (MUL)、 除 (DIV)、 与 (AND) ,或 
(OR) 、. 取 反 C(NOT) 、 取 负 (NEG) 、 异 或 (XOR) 、 加 1(NC)\ 减 1(DEC) 等 。 为 了 方便 多 字 长 
数据 的 运算 ,大 多 数 机 器 还 设置 了 带 进位 的 加 (ADC) 和 带 借 位 的 减 (SBB) 指 令 等 。 在 算术 
运算 指令 中 ,有 的 计算 机 还 专门 设置 了 十 进 制 数 的 运算 指令 。 

2. 移 位 指令 

这 类 指令 有 算术 移 位 、 逻 辑 移 位 、 循 环 移 位 、 半 字 交 换 等 。 有 的 机 器 默认 一 条 指令 只 移 
一 位 ,如 果 要 移 多 位 的 话 , 需 要 多 条 移 位 指令 ;有 的 机 器 可 在 指令 中 规定 移动 的 位 数 ,这 样 的 
话 ,移动 多 位 的 功能 可 以 用 一 条 指令 实现 。 通 常用 一 个 桶 形 移 位 器 实现 一 次 移动 多 位 的 
功能 。 

各 种 移 位 操作 的 含义 如 下 。 

算术 左 移 : 操作 数 的 各 位 依次 向 左 移 ,低位 补 零 。 有些 机 器 将 原 操作 数 的 最 高 位 移 人 
进位 标志 (CF) 位 ,这 样 ,通过 判断 符号 标志 和 进位 标志 是 否 相等 就 可 判断 是 否 发 生 了 溢出 。 

算术 右 移 : 各 位 依次 向 右 移 ,高 位 补 符号 。 有 些 机 器 将 最 低位 移 人 进位 标志 位 。 

逻辑 左 移 : 操作 同 算术 左 移 , 大 多 数 机 器 一 般 不 再 专门 设置 此 指令 。 

逻辑 右 移 : 各 位 依次 向 右 移 ,高 位 补 零 。 有 些 机 器 将 原 操 作 数 最 低位 移 人 进位 标志 位 。 

小 循环 左 移 : 最 高 位 移入 进位 标志 位 ,同时 也 移入 最 低位 。 

小 循环 右 移 : 最 低位 移入 进 位 标志 位 ,同时 也 移入 最 高 位 。 

大 循环 左 移 : 最 高 位 移 人 进位 标志 位 ,而 进位 标志 位 移入 最 低位 。 

大 循环 右 移 : 最 低位 移 人 进位 标志 位 ,而 进位 标志 位 移 人 最 高 位 。 

半 字 交换 : 寄存 器 的 前 半 部 分 和 后 半 部 分 内 容 进 行 交 换 。 

3. 传送 指令 

传送 指令 通常 有 寄存 器 之 间 的 传送 (MOV)、 从 内 存单 元 读 取 数据 到 CPU 寄存 器 
(LOAD) .从 CPU 寄存 器 写 数据 到 内 存单 元 (STORE) 等 。 

4. 串 指令 

串 指令 是 对 字符 串 进 行 操作 的 指令 ,如 串 传送 、. 串 比较 .检索 和 传送 转换 等 指令 。 

5. 顺序 控制 指令 

顺序 控制 指令 用 来 控制 程序 执行 的 顺序 。 有 条 件 转移 (BRANCH)、 无 条 件 转 移 
(JMP) 、 跳 步 (SKIP) .调用 (CALL) .返回 (RET) 等 指令 。 

顺序 控制 类 指令 的 功能 通过 将 转移 目标 地 址 送 到 PC 中 来 实现 。 转 移 目标 地 址 可 用 直 
接 寻 址 方式 给 出 (又 称 绝对 转移 ) ,或 由 相对 寻 址 方式 给 出 (又 称 相 对 转移 )。 有 的 机 器 还 可 
以 用 寄存 器 寻 址 方式 或 寄存 器 间接 寻 址 方式 给 出 转移 目标 地 址 。 

无 条 件 转移 指令 在 任何 情况 下 都 执行 转移 操作 ,而 条 件 转移 指令 (或 称 分 支 指令 ) 仅 仅 
在 特定 条 件 满足 时 才 执 行 转移 操作 。 转 移 条 件 一 般 是 某 个 标志 位 的 值 ,或 者 由 两 个 或 两 个 
以 上 的 标志 位 组 合 而 成 ,例如 ,CF==1、CF 二 0、.CF==1 或 ZF=1 等 。 这 里 CF 为 进位 / 借 位 标 
志 ,ZF 为 零 标 志 。 跳 步 是 转移 的 一 种 特例 , 它 使 PC 再 增加 一 个 定 值 , 这 个 定 值 一 般 是 指令 
字 所 占用 的 存储 单元 数 。 应 该 注意 的 是 取 指 令 时 PC 已 增 量 过 了 ,因此 跳 步 指令 实际 上 就 
是 跳 过 下 一 条 指令 。 
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调用 指令 也 称 为 转子 指令 ,和 转移 指令 的 根本 区 别 在 于 执行 调用 指令 时 必须 保存 下 一 
条 指令 的 地 址 ( 称 为 返回 地 址 ) 。 调 用 指令 用 于 子 程序 调用 ( 即 过 程 调用 或 函数 调用 ) , 当 子 
程序 执行 结束 时 ,根据 返回 地 址 返回 到 主 程序 继续 执行 ;而 转移 指令 则 不 返回 执行 ,因而 无 
须 保存 返回 地 址 。 

返回 指令 的 功能 是 在 子 程序 执行 完毕 时 ,将 事先 保存 的 返回 地 址 送 到 PC ,这样 处 理 器 
就 能 回 到 原来 的 主 程序 继续 执行 。 

6. CPU 控制 指令 

这 类 指令 有 停机 、 开 中 断 、 关 中 断 、 系 统 模 式 切换 以 及 进入 特殊 处 理 程 序 等 指令 。 大 多 
数 机 器 将 这 类 指令 划 为 “特权 ”指令 (也 称 为 管 态 指令 ) ,只 能 在 内 核 代 码 执行 时 使 用 ,以 防止 
因 用 户 使 用 不 当 而 对 系统 运行 造成 危害 。 

7. 输入 输出 指令 

这 类 指令 用 于 完成 CPU 与 外 部 设备 交换 数据 或 传送 控制 命令 及 状态 信息 。 大 多 数 机 
器 都 设置 了 这 类 指令 ,但 是 它们 的 寻 址 方式 一 般 较 少 ,常见 的 只 有 寄存 器 寻 址 、 直 接 寻 址 和 
寄存 器 间接 寻 址 等 。 当 外 设 中 的 1/O 地 址 空间 和 主 存 地 址 空间 统一 编 址 时 ,可 以 不 设置 这 
类 指令 ,而 用 访 存 指令 完成 IO 操作 。 


4.2.5 操作 码 编 码 


指令 的 操作 码 字段 可 以 是 固定 长 度 , 也 可 以 是 可 变 长 度 。 选 择 定 长 操作 码 还 是 可 变 长 
操作 码 , 是 时 间 和 空间 之 间 的 开销 权衡 问题 。 希 望 降低 空间 开销 时 ,代码 的 长 度 更 重要 ,应 
采用 紧凑 的 变 长 操作 码 和 变 长 指令 字 ; 和 希望 降低 时 间 开 销 以 取得 更 好 性 能 时 ,应 采用 定 长 操 
作 码 和 定 长 指令 字 。 

1. 定 长 操作 码 编码 

指令 的 操作 码 部 分 采用 固定 长 度 编码 ,这 种 方式 译 码 方便 ,指令 执行 速度 快 ,但 有 信息 
元 余 。 例 如 ,IBM 360/370 采用 8 位 定 长 操作 码 , 最 多 可 有 256 条 指令 ,但 指令 系统 中 只 提 
供 了 183 条 指令 ,有 73 种 为 元 余 编 码 。 如 图 4.4 所 示 ,IBM 360/370 的 指令 格式 有 RR 型 、 
RX 型 .RS 型 .SI 型 .SS 型 等 几 类 。 其 中 RR 型 指令 为 半 字 长 (16 位 ),SS 型 指令 为 一 字 半 
长 (48 位 ) ,其 余 指 令 为 单字 长 (32 位 )。 操 作 码 的 第 0 位 和 第 1 位 组 成 4 种 不 同 的 编码 , 代 
表 4 种 不 同 的 指令 : 00 表示 RR 型 ,01 表示 RX 型 ,10 表示 RS 型 和 SI 型 ,11 表示 SS 型 。 
RR 型 指令 是 寄存 器 -寄存 器 型 指令 , 即 两 个 操作 数 都 是 寄存 器 中 的 内 容 。RX 型 指令 和 RS 
型 指令 都 是 寄存 器 -存储 器 型 指令 ,其 中 RX 型 是 二 地 址 指令 ,第 一 个 操作 数 和 结果 放 在 R1 
中 , 另 一 个 操作 数 在 存储 器 中 ,采用 变 址 寻 址 方式 ,有 效 地 址 EA 二 (X) 十 (B) 十 D; 
RS 型 是 三 地 址 指令 ,R1l 存放 结果 ,R3 存放 一 个 源 操作 数 , 另 一 个 源 操作 数 在 存储 器 中 ,有 
效 地 址 EA 二 (B) 十 D。SI 型 是 存储 器 -立即 数 型 指令 ,结果 和 其 中 一 个 操作 数 的 地 址 共用 同 
一 个 存储 单元 。SS 型 指令 是 存储 器 -存储 器 型 指令 , 即 两 个 操作 数 都 是 存储 器 中 的 内 容 , 用 
于 字符 串 的 运算 和 处 理 ,L 为 字符 串 的 长 度 。 

2. 扩展 操作 码 编码 

扩展 操作 码 编码 方式 将 操作 码 的 编码 长 度 分 成 几 种 固定 长 度 的 格式 。 可 以 采用 等 长 扩 
展 法 ,例如 , 按 4-8-12、3-6-9 这 种 等 步 长 方式 扩展 ;也 可 采用 不 等 长 扩展 法 。 扩 展 编码 方式 
的 操作 码 长 度 不 固定 ,是 可 变 的 。 这 种 编码 方式 被 大 多 数 非 规 整 型 指令 集 采用 。 


















































RR 型 | OP R1 | R2 R1~R3: 寄存 器 
人 pe 二 X : 变 址 器 

B1, B2: 基 址 器 

Rs 型 | op TRITRTEB D D1, D2: 位 移 量 
I: 立即 数 

SI 型 | OP B D L : 数 的 长 度 

SS 型 OP L Bl D1 B2 D2 
5 8 |4 12 4 

| 第 1 个 半 字 |， 第 2 个 半 字 | 第 3 个 半 字 .| 











4.4 IBM 360/370 指令 格式 


PDP-11 是 典型 的 变 长 操作 码 计算 机 ,如 图 4. 5 所 示 , 其 各 种 操作 码 长 度 依次 为 4-7-8- 
10-13-16 。 
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3| OP D 】 D : 3 位 寻 址 方式 

人 3 位 寄存 器 编号 
本 R ， 8 个 通用 寄存 器 之 一 

FR ，4 个 浮 点 寄存 器 之 一 
s[ op D 存储 器 地 址 | X* 位 移 时 

ON 
10 6 16 
6 OP R 
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时 OP 








4.5 ”PDP-11 指令 格式 


PDP-11 是 16 位 字 长 的 小 型 计算 机 ,有 8 个 寄存 器 R0~R7, 其 中 ,R0~R5 为 通用 寄存 
器 ,R6 是 栈 指针 SP,R7 是 程序 计数 器 PC。 存 储 器 按 字 节 编 址 ,要 求 边界 对 齐 ,每 个 字 地 址 
都 是 偶数 。 基 本 指令 字 长 为 16 位 ,第 1、2、3 类 为 双 操 作 数 指令 ;第 4 类 为 转移 指令 ,转移 目 
标 地 址 采用 相对 寻 址 方式 ;第 5、6 类 为 单 操作 数 指令 。 有 些 类 型 的 指令 可 扩充 一 个 或 两 个 
存储 器 地 址 字段 ,扩充 字段 分 别 对 应 S 和 D 字段 ,是 否 扩充 取决 于 S 和 D 中 的 寻 址 方式 位 。 

下 面 用 一 个 例子 来 说 明 如 何 进行 扩展 操作 码 编码 。 

例 4.1 设 某 指令 系统 的 指令 字 为 16 位 ,每 个 地 址 码 为 6 位 。 若 二 地 址 指令 15 条 ,一 
地 址 指令 34 条 , 则 剩 下 的 零 地 址 指令 最 多 有 多 少 条 ? 

解 : 扩展 编码 的 基本 思想 就 是 操作 码 按 短 到 长 进行 扩展 编码 。 二 地 址 指令 的 操作 码 最 
短 , 零 地 址 指令 的 操作 码 最 长 ,所 以 ,按照 二 地 址 习 一 地 址 习 零 地 址 的 顺序 进行 。 

二 地 址 指令 的 地 址 码 部 分 占 12 位 , 故 操作 码 只 有 4 位 ,最 多 有 16 种 编码 ,用 去 15 种 编 
码 (0000~1110) 分 别 表 示 15 条 指令 和， 种 编码 1111 未 使 用 。 

一 地 址 指令 的 地 址 码 部 分 占 6 位 , 故 操作 码 有 10 位 ,最 高 4 位 为 1111, 还 剩 6 位 未 编 
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码 , 最 多 可 有 2 一 64 种 编码 ,用 其 中 的 32 十 2 一 34 种 编码 (11110 00000 一 11110 11111 和 
11111 00000~11111 00001) 分 别 表示 34 条 一 地 址 指令 。 

剩 下 的 零 地 址 指令 共有 16 位 操作 码 , 其 中 高 5 位 只 能 是 11111, 所 以 编码 范围 为 11111 
(00010~11111)(000000~111111) , 即 ,高 5 位 为 11111, 次 5 位 为 00010~11111, 低 6 位 为 
000000~111111。 因 此 , 零 地 址 指令 最 多 有 30X2° 种 编码 可 用 。 


4.2.6 标志 信息 的 生成 与 使 用 


条 件 转移 指令 (也 称 分 支 指令 ) 通 常 根 据 程序 当前 生成 的 标志 信息 进行 转移 。 标 志 信息 
也 称 为 条 件 码 (Condition Codes,CC) 或 状态 位 (Status)。 

常用 的 标志 有 零 标志 ZF 溢出 标志 OF ,符号 标志 SF 和 进位 / 借 位 标志 CF。 对 于 不 同 
数据 类 型 的 运算 指令 ,这 些 标志 信息 的 含义 有 一 些 差别 。 

对 于 带 符号 整数 加 、 减 运算 和 无 符号 整数 加 ` 减 运算 ,这 4 个 标志 的 含义 在 3. 3. 1 节 中 
进行 了 详细 说 明 ,并 在 图 3.6(b) 中 给 出 了 每 个 标志 信息 的 生成 电路 。 在 执行 定点 整数 加 、 
减 运算 指令 和 比较 指令 (通过 做 减法 进行 比较 ) 时 ,CPU 在 ALU 中 进行 相应 的 加 或 减 运算 ， 
得 到 运算 结果 以 及 相应 的 标志 信息 。 

对 于 逻辑 运算 指令 ,通常 只 有 零 标志 ZF 才 有 意义 。 可 以 通过 判断 是 否 ZF 二 1 来 确定 
与 .或 , 非 等 操作 的 结果 是 否 为 0。 

对 于 移 位 指令 ,因为 左 移 一 位 ,数值 扩大 一 倍 ,所 以 左 移 指 令 的 结果 可 能 会 发 生 溢出 。 
因此 ,有 些 机 器 的 左 移 指令 会 生成 OF 标志 。 还 有 的 机 器 在 算术 左 移 时 将 操作 数 的 最 高 位 
移 人 进位 标志 ,通过 判断 符号 标志 和 进位 标志 是 否 相 等 来 判断 是 否 发 生 了 溢出 。 

对 于 定点 整数 乘除 运算 指令 和 浮 点 数 运算 指令 ,可 能 不 会 生成 这 4 种 标志 信息 。 

生成 的 标志 位 可 由 专门 的 条 件 码 寄存 器 (或 称 状态 寄存 器 .标志 寄存 器 .程序 状态 字 寄 
存 器 了) 来 存放 ,也 可 由 指定 的 通用 寄存 器 来 存放 。 不 同 机 器 的 说 法 和 做 法 类 似 , 但 不 一 定 
完全 相同 。 

有 些 处 理 器 不 用 专门 的 标志 寄存 器 存放 标志 位 ,而 是 用 通用 寄存 器 来 保存 。 下 面 的 例 
子 中 ,用 通用 寄存 器 zl 来 存放 标志 位 : 


cmp EL 2 3 ;比较 r2 和 r3, 标 志 位 存储 在 r1 中 

bgt rl, label ;根据 r1 中 的 标志 位 判断 是 否 大 于 ,以 转移 到 label 处 
有 的 指令 系统 可 以 用 以 下 一 条 “计算 并 转移 ”指令 来 实现 上 述 两 条 指令 的 功能 : 
bgt rl, r2, label ;根据 rl 和 r2 比较 的 结果 ,直接 决定 是 否 转移 


由 此 可 见 , 标 志 信息 的 生成 和 使 用 方式 有 多 种 ,实现 条 件 转移 的 方式 可 以 各 不 相同 。 不 
管 是 否 保存 标志 信息 ,也 不 管 将 标志 信息 保存 在 特殊 的 标志 寄存 器 中 还 是 通用 寄存 器 中 ,处 
理 器 中 的 运算 电路 必须 能 够 产生 这 些 标 志 。 

为 了 清楚 说 明 条 件 转移 指令 如 何 根据 标志 信息 进行 条 件 判 断 。 表 4. 1 列 出 了 IA-32 指 
令 系统 中 常用 条 件 转移 指令 的 转移 条 件 。 


四 ”程序 状态 字 寄 存 器 用 来 存放 条 件 码 CC 和 自 陷 允许 标志 (Trap Enable Flag) 等 状态 信息 。 不 同 计算 机 对 程序 状 
态 的 描述 以 及 程序 状态 存放 位 置 可 能 不 一 样 。 但 在 概念 上 应 该 有 一 个 程序 状态 字 (Program Status Word,PSW) 。 


表 4.1 IA-32 中 常用 条 件 转移 指令 



























































序 号 指 令 转移 条 件 说 明 
和 jc label CF=1 有 进位 / 借 位 
2 jnc label CF=0 无 进位 / 借 位 
3 je/jz label ZF=1 相等 /等 于 零 
4 jne/jnz label ZF=0 不 相等 /不 等 于 零 
5 js label =1 是 负数 
6 jns label SF=0 是 非 负数 
jo label OF=1 有 溢出 
8 jno label OF=0 无 溢出 
9 ja/jnbe label CF=0 AND ZF=0 无 符号 整数 A 二 B 
10 jae/jnb label CF=0 OR ZF=1 无 符号 整数 A 宇 B 
过 jb/jnae label CF=1 AND ZF=0 无 符号 整数 A=B 
12 jbe/jna label CF=1 OR ZF=1 无 符号 整数 A<B 
13 jg/jnle label SF=OF AND ZF=0 带 符 号 整数 A 二 B 
14 jge/jnl label SF=OF OR ZF=1 带 符号 整数 A 宇 B 
15 jl/jnge label SF#OF AND ZF=0 带 符号 整数 A 二 B 
16 jle/jng label SFAOF OR ZF=1 带 符号 整数 A<B 


IA-32 中 不 管 高 级 语言 程序 中 定义 的 变量 是 带 符 号 整数 还 是 无 符号 整数 类 型 ,对 应 的 
加 ( 减 ) 法 指令 都 是 一 样 的 。 每 条 加 ( 减 ) 指 令 或 比较 指令 执行 后 ,会 根据 运算 结果 产生 相应 
的 进 / 借 位 标志 CF、 符 号 标志 SF 溢出 标志 OF 和 零 标志 ZF 等 ,并 保存 到 标志 寄存 器 
(EFLAGS) 中 。 

在 IA-32 中 ,对 于 比较 大 小 后 进行 分 支 转 移 的 情况 ,通过 减法 来 获得 标志 信息 ,然后 再 
根据 标志 信息 来 判定 两 个 数 的 大 小 ,从 而 决定 该 转移 到 何 处 执行 指令 。 对 于 无 符号 整数 的 
情况 ,判断 大 小 时 使 用 的 是 CF 和 ZF 标志 。ZF=1 说 明 两 数 相等 ,CF=1 说 明 有 借 位 ,是 
“小 于 ”的 关系 ,通过 对 ZF 和 CF 的 组 合 ,得 到 表 4. 1 中 序号 9 一 12 的 4 条 指令 中 的 结论 ;对 
于 带 符 号 整数 的 情况 ,判断 大 小 时 使 用 SF、OF 和 ZF 标志 。ZF=1 说 明 两 数 相等 ,SF 二 OF 
时 说 明 结果 是 以 下 两 种 情况 之 一 : @ 两 数 之 差 为 正 数 (SF 二 0) 且 结果 未 溢出 (OF 二 0);@ 
两 数 之 差 为 负数 (SF==1) 且 结果 溢出 (OF 二 1) ,这 两 种 情况 显然 反映 的 是 “大 于 ”关系 。 同 
样 , 若 SF 了 OF, 则 反映 “小 于 ”关系 。 带 符号 整数 比较 时 对 应 表 4. 1 中 序号 13 一 16 这 4 条 
指令 。 

假设 被 减 数 的 机 器 数 为 X, 减 数 的 机 器 数 为 了 , 则 在 如 图 3. 9 所 示 的 补 码 加 减 运 算 器 中 
计算 两 数 的 差 时 ,计算 公式 为 X 一 了 二 外 十 了 十 1。 现 举 两 个 例子 来 说 明 上 述 无 符号 整数 和 
带 符号 整数 的 大 小 判断 规则 。 

假定 =1001,Y= 二 1100,Sub 二 1, 则 Y 二 0011, 加 法 器 中 的 运算 为 1001 一 1100 二 1001 十 
0011 十 1 二 (0) 1101, 因 此 ZF 二 0,Cout 二 0。 车 是 无 符号 整数 比较 , 则 是 9 和 12 相 比 ,是 “小 
于 ”的 关系 ,此 时 CF 二 Cout@Sub 二 1, 满 足 表 4. 1 中 序号 11 对 应 指令 中 的 条 件 ; 若 是 带 符 
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号 整数 比较 , 则 是 一 7 和 一 4 比较 ,显然 也 是 “小 于 ”关系 ,此 时 符号 位 为 1, 即 SF 二 1, 而 根据 
两 个 加 数 符号 相 异 一 定 不 会 溢出 的 原则 ,得 到 OF 二 0, 因 而 SF 取 OF, 满 足 表 4.1 中 序号 15 
对 应 指令 中 的 条 件 。 

假定 X=1100,Y==1001,Sub 二 1, 则 Y = 二 0110, 加 法 器 中 的 运算 为 1100 一 1001 王 1100 
十 0110 十 1 二 (1) 0011, 因 此 ZF=0,Cout=1。 若 是 无 符号 数 比 较 , 则 是 12 和 9 相 比 ,是 “大 
于 ”的 关系 ,显然 此 时 CF 王 Cout 中 Sub=0 ,满足 表 4. 1 中 序号 9 对 应 指令 中 的 条 件 ; 若 是 带 
符号 整数 , 则 是 一 4 和 一 7 比较 ,也 是 “大 于 ”的 关系 ,显然 此 时 SF==0 且 OF==0, 即 SF=OF， 
满足 表 4. 1 中 序号 13 对 应 指令 中 的 条 件 。 


4.2.7 指令 系统 设计 风格 


1. 按 操作 数位 置 指定 风格 来 分 

按 操作 数位 置 指定 风格 来 分 ,可 分 为 以 下 4 种 不 同 风格 类 型 的 指令 系统 。 

1) 累加 器 (accumulator) 型 指令 系统 

这 种 类 型 指令 系统 中 ,总 是 把 其 中 一 个 操作 数 隐 含 在 累加 器 (一 般 用 AC 表示 ) 中 ,指令 
执行 的 结果 也 总 是 送 到 累加 器 中 。 这 种 指令 系统 的 指令 字 短 ,但 每 次 运算 都 要 通过 累加 器 ， 
因而 ,在 进行 复杂 表达 式 运 算 时 ,程序 中 会 多 出 许多 移 人 /移出 累加 器 的 指令 ,从 而 使 程序 变 
长 ,影响 程序 执行 的 效率 。 这 种 设计 风格 的 指令 系统 只 在 早期 机 器 中 使 用 过 ,现在 一 般 不 
采用 。 

2) 栈 (stack) 型 指令 系统 

Java 虚拟 机 采用 的 是 栈 型 指令 系统 。 栈 是 一 种 采用 后 进 先 出 (LIFO) 或 先进 后 出 
(CFILO) 存 取 方 式 的 特定 的 存储 区 。 栈 型 指令 系统 中 ,规定 指令 的 操作 数 总 是 来 自 栈 顶 。 往 
栈 里 存 数 叫 人 ( 进 ) 栈 或 压 栈 , 从 栈 里 取 数 叫 出 栈 或 弹出 。 

栈 型 指令 系统 中 的 指令 都 是 零 地 址 或 一 地 址 指令 ,因此 ,指令 字 很 短 。 但 是 ,由 于 指令 
所 用 操作 数 只 能 来 自 栈 顶 ,所 以 ,在 对 表达 式 进行 编译 时 ,所 生成 的 指令 顺序 以 及 操作 数 在 
栈 中 的 排列 都 有 严格 的 顺序 规定 ,因而 不 灵活 , 带 来 指令 条 数 的 增加 。 因 此 , 栈 型 指令 系统 
很 少 被 通用 计算 机 使 用 。 

3) 通用 寄存 器 (general purpose register) 型 指令 系统 

这 种 类 型 指令 系统 的 特点 是 ,使 用 通用 寄存 器 而 不 是 累加 器 来 存放 运算 过 程 中 所 用 的 
临时 数据 。 其 指令 的 操作 数 可 以 是 立即 数 (I) ,或 来 自 通 用 寄存 器 (R) ,或 来 自 存 储 单元 
(S) 。 指 令 类 型 可 以 是 RR 型 .RS 型 .SI 型 .SS 型 等 。RR 型 指令 表示 两 个 操作 数 都 来 自 寄 
存 器 ,RS 型 指令 表示 一 个 操作 数 来 自 寄 存 器 , 另 一 个 操作 数 来 自 存储 单元 。 

4) Load/Store 型 指令 系统 

Load/Store 型 指令 系统 也 使 用 通用 寄存 器 而 不 是 累加 器 来 存放 运算 过 程 中 所 用 的 临 
时 数据 。 因 此 , 它 也 是 一 种 通用 寄存 器 型 指令 系统 。 同 时 , 它 有 一 个 显著 的 特点 ,就 是 只 有 
取 数 (Load) 指 令 和 存 数 (Store) 指 令 才 可 以 访问 存储 器 ,运算 类 指令 不 能 访 存 , 也 就 是 说 运 
算 类 指令 只 能 是 RR 型 或 RI 型 。Load/Store 型 指令 系统 中 的 指令 比较 规整 ,体现 在 每 条 指 
令 的 指令 字 长 度 和 指令 执行 时 间 等 能 够 比较 一 致 。 

目前 ,通用 寄存 器 型 指令 系统 占 主导 地 位 。 这 主要 因为 : 通用 寄存 器 和 处 理 器 集成 
在 一 起 ,作为 ALU 的 操作 数 来 源 ,两 者 可 以 靠 得 很 近 ,因而 可 缩短 传输 延迟 ; @ 寄 存 器 位 于 








存储 器 层次 化 结构 的 顶端 ,速度 快 且 容易 使 用 。 

寄存 器 个 数 不 能 太 多 ,否则 ,成 本 高 且 会 延长 存 取 时 间 而 使 得 时 钟 周期 变 长 。 当 然 , 寄 
存 器 个 数 也 不 能 太 少 ,否则 ,编译 器 只 能 把 许多 变量 分 配 到 内 存单 元 ,每 次 都 要 去 内 存 访问 
操作 数 ,因而 会 影响 程序 的 性 能 。 因 此 ,通用 寄存 器 的 设计 和 有 效 使 用 是 程序 性 能 好 坏 的 关 
键 之 一 。 

2. 按 指令 格式 的 复杂 度 来 分 

按 指令 格式 的 复杂 度 来 分 ,可 分 为 CISC 与 RISC 两 种 类 型 指令 系统 。 

1) CISC 风格 指令 系统 

随 着 VLSI 技术 的 迅速 发 展 ,计算 机 硬件 成 本 不 断 下 降 , 软 件 成 本 不 断 上 升 。 为 此 ,人 
们 在 设计 指令 系统 时 增加 了 越 来 越 多 功能 强大 的 复杂 命令 ,以 使 机 器 指令 的 功能 接近 高 级 
语言 语句 的 功能 ,给 软件 提供 较 好 的 支持 。 例 如 ,VAX-11/780 指令 系统 包含 了 16 种 寻 址 
方式 ,9 种 数据 格式 ,303 条 指令 ,而 且 一 条 指令 包含 1 一 2 个 字 节 的 操作 码 和 下 续 N 个 操作 
数 说 明 符 ,而 一 个 操作 数 说 明 符 的 长 度 可 达 1 一 10 个 字 节 。 我 们 称 这 类 计算 机 为 复杂 指令 
集 计算 机 (Complex Instruction Set Computer,CISC) 。 

CISC 指令 系统 设计 的 主要 特点 如 下 。 

(1) 指令 系统 复杂 。 指 令 多 , 寻 址 方式 多 ,指令 格式 多 。 

(2) 指令 周期 长 。 绝 大 多 数 指令 需要 多 个 时 钟 周期 才能 完成 。 

(3) 指令 周期 差距 大 。 各 种 指令 都 能 访问 存储 器 ,使 得 简单 指令 和 复杂 指令 所 用 的 时 
钟 周期 数 相差 很 大 ,不 利于 指令 流水 线 的 实现 。 

(4) 采用 微 程序 控制 。 由 于 有 些 指令 非常 复杂 ,以 至 于 无 法 用 硬 连 线 控制 器 来 实现 ,而 
微 程序 控制 器 用 软件 设计 思想 实现 硬件 ,可 以 实现 对 复杂 指令 的 控制 。 

(5) 难以 进行 编译 优化 。 由 于 编译 器 可 选 指令 序列 增多 ,使 得 目标 代码 组 合 增加 ,从 而 
增加 了 目标 代码 优化 的 难度 。 

复杂 的 指令 系统 使 得 计算 机 的 结构 也 越 来 越 复杂 ,不 仅 增加 了 研制 周期 和 成 本 ,而 且 难 
以 保证 其 正确 性 ,甚至 降低 了 系统 性 能 。 

对 大 量 典型 的 CISC 程序 调查 结果 表明 ,各 种 指令 的 使 用 频率 相当 悬殊 ,最 常 使 用 的 是 
只 占 指令 系统 20% 的 一 些 简单 指令 ,它们 占 程序 代码 的 80% 以 上 ,而 需要 大 量 硬件 支持 的 
复杂 指令 在 程序 中 的 出 现 频率 却 很 低 ,造成 了 硬件 资源 的 大 量 浪费 。 在 微 程序 控制 的 计算 
机 中 , 占 程序 中 指令 总 数 20% 的 最 复杂 的 指令 占用 了 微 程序 控制 存储 器 容量 的 80%。 因 
此 ,1975 年 IBM 公司 开始 研究 指令 系统 的 合理 性 问题 ,John Cocke 领导 的 一 个 研究 小 组 提 
出 了 精简 指令 集 计 算 机 (Reduced Instruction Set Computer, RISC) 的 概念 。 

2) RISC 风格 指令 系统 

RISC 的 着 眼 点 不 是 简单 地 放 在 简化 指令 系统 上 ,而 是 通过 简化 指令 使 计算 机 结构 更 
加 简单 合理 ,从 而 提高 机 器 的 性 能 。 与 CISC 相 比 ,RISC 指令 系统 的 主要 特点 如 下 。 

(1) 指令 数目 少 。 只 包含 使 用 频 度 高 的 简单 指令 。 

(2) 指令 格式 规整 。 寻 址 方式 少 ,指令 格式 少 , 指 令 长 度 一 致 。 

(3) 采用 Load/Store 型 指令 设计 风格 。 

(4) 采用 流水 线 方式 执行 指令 。 规 整 的 指令 格式 有 利于 采用 流水 线 方式 执行 , 除 
Load/Store 指令 外 ,其 他 指令 都 只 需 一 个 或 小 于 一 个 时 钟 周期 就 可 完成 ,指令 周期 短 。 
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(5) 采用 大 量 通用 寄存 器 。 编 译 器 可 将 变量 分 配 到 寄存 器 中 ,以 减少 访 存 次 数 。 

(6) 采用 硬 连 线 控制 器 。 指 令 少 而 规整 使 得 控制 器 的 实现 变 得 简单 ,可 以 不 用 或 少 用 
微 程序 控制 。 

(7) 采用 优化 的 编译 系统 。 指 令 数 少 有 利于 编译 器 的 优化 。 

采用 RISC 技术 后 ,由 于 指令 系统 简单 ,CPU 的 控制 逻辑 大 大 简化 ,芯片 上 可 设置 更 多 
的 通用 寄存 器 ,指令 也 可 以 采用 速度 较 快 的 硬 连 线 控制 器 来 控制 , 且 更 适合 于 采用 指令 流水 
技术 ,这 些 都 可 以 使 指令 的 执行 速度 进一步 提高 。 指 令 数量 少 , 固 然 使 编译 工作 量 加 大 ,但 
由 于 指令 系统 中 的 指令 都 是 精 选 的 ,编译 时 间 少 , 反 过 来 对 编译 程序 的 优化 又 是 有 利 的 。 

20 世纪 70 年 代 中 期 ,IBM 公司 斯坦 福 大 学 、 加 州 大 学 伯克利 分 校 等 机 构 先后 开始 对 
RISC 技术 进行 研究 ,其 成 果 分 别 用 于 IBM、Sun、MIPS 等 公司 的 产品 中 ,如 美国 加 州 大 学 伯 
克利 分 校 的 RISC I, 斯 坦 福 大 学 的 MIPS,IBM 公司 的 IBM 801 相继 宣告 完成 ,这 些 机 器 被 
称 为 第 一 代 RISC 机 。 到 20 世纪 80 年 代 中 期 ,RISC 技术 鞍 勃发 展 , 广 泛 使 用 ,并 以 每 年 翻 
番 的 速度 发 展 , 先 后 出 现 了 PowerPC、MIPS Sun SPARC Compaq Alpha 等 高 性 能 RISC 
芯片 以 及 相应 的 计算 机 。 这 时 不 少 RISC 的 支持 者 开始 对 传统 的 CISC 计算 机 (如 VAX、 
Intel 架构 .IBM 大 型 机 ) 进 行 攻击 ,认为 未 来 的 发 展 非 RISC 莫 属 。 当 然 ,这 也 遭遇 到 计算 
机 结构 主流 派 的 反对 ,这 种 争论 延续 了 数 年 。 

虽然 RSIC 技术 在 性 能 上 有 优势 ,但 最 终 RISC 机 并 没有 在 市 场 上 占 优势 ,反而 是 Intel 
一 直 保 持 处 理 器 市 场 的 较 大 份额 ,这 是 为 什么 呢 ? 其 原因 主要 有 两 点 : 第 一 ,因为 软件 的 向 
后 兼容 性 ,许多 用 户 先 期 花 了 很 多 钱 投资 购买 了 在 Intel 系列 机 上 开发 的 软件 ,如 果 换 成 
RISC 机 ,就 意味 着 所 有 软件 要 重新 投资 ;其 次 , 随 着 处 理 器 速度 和 芯片 密度 等 的 不 断 提高 ， 
RISC 系统 也 日 趋 复 杂 ,而 CISC 由 于 采用 了 部 分 RISC 技术 (例如 ,Intel Pentium 4 中 将 简 
单 指令 直接 转换 为 类 RISC 指令 ,复杂 指令 用 微 码 实现 ) ,使 其 性 能 更 加 提高 。 虽 然 这 种 混 
合 方案 不 如 纯 RISC 方案 速度 快 ,但 它 却 能 在 保证 软件 兼容 的 前 提 下 达到 具有 较 强 竞争 力 
的 整体 性 能 。 

不 过 , 随 着 后 PC 时 代 的 到 来 ,个 人 移动 设备 的 使 用 和 艇 人 式 系统 的 应 用 越 来 越 广泛 ， 
像 ARM 处 理 器 等 这 些 采用 RICS 技术 的 产品 又 迎 来 了 新 的 机 遇 ,在 嵌入 式 系统 中 占有 绝 
对 优势 ,因而 被 更 广泛 使 用 。 


4.3 指令 系统 实例 


指令 系统 设计 是 计算 机 系统 设计 的 核心 工作 ,不 同 机 器 的 指令 集体 系 结构 差异 很 大 ,了 
解 不 同类 型 的 ISA ,对 计算 机 系统 设计 工作 会 有 很 大 帮助 。 以 下 简单 介绍 几 种 有 代表 性 的 
指令 系统 实例 。 


“4.3.1 IA-32 指令 系统 


IA-32 是 CISC 风格 指令 系统 的 典型 代表 ,有 长 度 可 变 的 8 个 通用 寄存 器 .6 个 段 寄 存 
器 和 一 个 标志 寄存 器 。 

1. 指令 格式 

采用 可 变 长 指令 格式 ,指令 长 度 为 1 一 15 字 节 ,由 前 级 和 指令 两 部 分 组 成 。 


(1) 前 缀 : 位 于 指令 操作 码 前 ,但 并 不 是 每 条 指令 都 必须 有 ,包括 以 下 4 类 。 
@ 指令 前 绥 : 由 LOCK 前 级 和 重复 操作 前 缀 组 成 。LOCK 前 绥 规 定 是 否 对 共享 存储 意 


器 以 独占 方式 使 用 ;重复 操作 前 级 表示 重复 操作 的 类 型 ,有 REP、REPZ、REPE、REPNZ、 
REPNE 等 几 种 。 

@ 段 前 级: 如 果 有 自前 级 , 则 指令 采用 有 段 前 级 指定 的 段 寄 存 器 ,而 不 用 默认 段 寄存 髓 。 

@ 操作 数 长 度 前 级 : 如 果 有 该 前 级 , 则 操作 数 长 度 将 采用 它 规定 的 而 不 是 默认 的 
长 度 。 

@ 地 址 长 度 前 缀 : 如 果 有 该 前 级 , 则 地 址 长 度 将 采用 它 规定 的 而 不 是 默认 的 长 度 。 

各 类 前 级 的 字 节 数 如 图 4. 6 所 示 。 





前 绥 类 型 : | 指令 前 组 段 前 组 | 操作 数 长 度 地 址 长 度 
字 节 数 : 0 或 1 0 或 1 | 0 或 1 0 或 1 




















图 4.6 IA-32 指令 前 级 的 字 节 数 












































(2) 指令 : 指出 操作 类 型 和 操作 数 或 操作 数 地 址 ,各 部 分 长 度 和 含义 如 图 4.7 所 示 。 
指令 段 : | 操作 码 | 寻 址 方式 | SIB 位 移 直接 数据 
字 节 数 : | 1 或 2 0 或 1 | 0 或 1 ji 立即 数 
Mod Reg/OP RM SS Index Be 
65 4 32 1 0 7 65 4 32 1 0 
图 4.7 IA-32 指令 格式 
指令 部 分 包含 以 下 几 个 字段 。 


J@ 操作 码 : 1 一 2 字 节 ,指定 操作 性 质 ,并 给 出 以 下 信息 : 数据 长 度 是 字 节 还 是 字 (16 
位 );* 寻 址 方式 的 Reg/OP 字段 指定 的 寄存 器 是 源 还 是 目标 ;指令 中 如 果 有 立即 数 , 则 是 否 对 
它 进 行 符 号 扩展 。 

@ 寻 址 方式 : 由 Mod、Reg/OP 和 R/M 三 个 段 组 成 ,Mod 和 R/M 联合 指定 8 种 寄存 
器 寻 址 和 24 种 变 址 寻 址 方式 ,Reg/OP 指定 寄存 器 号 或 三 位 扩展 操作 码 。 

@ SIB: 由 SS(2 位 ) .Index(3 位 )、Base(3 位 ) 三 部 分 组 成 。SS 指定 比例 系数 ( 变 址 寻 
址 方式 时 , 变 址 寄存 器 内 容 要 乘 以 该 系数 ) ,Index 指定 变 址 寄存 器 号 , Base 指定 基 址 寄存 
器 号 。 

@ 位 移 : 指令 中 如 果 有 位 移 量 , 则 其 长 度 可 以 是 1、2 或 4 个 字 节 。 

@@ 直接 数据 : 指令 中 如 果 有 立即 数 , 则 其 长 度 可 以 是 1、2 或 4 个 字 节 。 

2. 寻 址 方式 

操作 数 来 源 有 3 种 : 立即 数 、 寄 存 器 和 存储 单元 。 有 32 位 、16 位 和 8 位 3 种 长 度 的 通 
用 寄存 器 。 当 操作 数 为 存储 单元 内 容 时 ,需要 进行 地 址 转换 ,IA-32 采用 段 页 式 存储 管理 机 
制 , 先 通过 分 段 方 式 将 虚拟 (逻辑 ) 地 址 转换 为 线性 地 址 LA, 然 后 再 用 分 页 方式 将 线性 地 址 
转换 为 内 存 (物理 ) 地 址 。 

指令 中 必须 显 式 或 隐 式 地 给 出 以 下 信息 。 

(1) 段 寄存 器 SR( 可 用 段 前 缀 显 式 给 出 ,也 可 缺 省 ) 。 


计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





(2) 8/16/32 位 位 移 A( 由 位 移 字段 显 式 给 出 )。 

(3) 基 址 寄存 器 B( 由 SIB 中 Base 字段 显 式 给 出 ,任意 通用 寄存 器 皆 可 ) 。 

(4) 变 址 寄存 器 I( 由 SIB 中 Index 字段 显 式 给 出 , 除 ESP 外 的 任意 通用 寄存 器 皆 可 ) 。 

有 比例 变 址 和 非 比 例 变 址 ,比例 变 址 时 ,要 乘 以 比例 因子 S( 由 SIB 中 SS 字段 给 出 ) ,其 
含义 为 操作 数 的 字 节 个 数 。 

表 4.2 列 出 了 IA-32 的 主要 寻 址 方式 。 


表 4.2 IA-32 的 寻 址 方式 



































寻 址 方式 说 明 
立即 寻 址 指令 直接 给 出 操作 数 
寄存 器 寻 址 指定 的 寄存 器 R 的 内 容 为 操作 数 
位 移 LA=(SR) 十 A 
基 址 寻 址 LA 一 (SR) 十 (B) 
基 址 加 位 移 LA=(SR) 十 (B) 十 A 
比例 变 址 加 位 移 LA=(SR)+ (DXS+A 
基 址 加 变 址 加 位 移 LA=(SR) 十 (B) 十 (CD 十 A 
基 址 加 比例 变 址 加 位 移 LA=(SR) 十 (B) 十 (D XS 十 A 
相对 寻 址 LA=(PO)+A 


注 : LA: 线性 地 址 〈X): X 的 内 容 SR: 段 寄 存 器 PC: 程序 计数 器 R: 寄存 器 
A: 指令 中 给 定 地 址 段 的 位 移 量 B: 基 址 寄存 器 I: 变 址 寄存 器 S: 比例 系数 


IA-32 的 线性 地 址 LA 按 图 4. 8 所 示 方 法 形成 。 首 先 根 据 段 寄存 器 中 的 段 选择 符 , 得 
到 一 个 段 表 项 ,根据 其 中 的 段 描述 符 ,得 到 所 在 段 的 基地 址 、 段 长 度 界限 ( 段 限 )、 段 存 取 权限 
等 ,再 将 段 的 基地 址 与 有 效 地 址 相 加 得 到 线性 地 址 。 其 中 ,有 效 地址 由 指令 中 给 出 的 寻 址 方 
式 来 确定 如 何 计算 。 例 如 ,对 于 指令 *MOV EAX,[EBP 十 ESI 十 1000H]”, 有 效 地 址 通过 将 
基 址 寄存 器 EBP 的 内 容 、 比 例 变 址 值 ( 变 址 寄存 器 ESI 的 内 容 乘 以 比例 因子 4)、 偏 移 量 ( 即 




















段 寄存 器 基 址 寄存 器 
线性 地 址 空间 
SS 变 址 寄存 器 AT ， 
段 选择 符 
CS 





























比例 因子 | 基 址 SS | 
1/2/4/8 SRSE 











偏 移 量 
8/16/32 位 


















































有 效 地 址 ~ 
线性 地 址 
段 限 
基地 址 


图 4.8 IA-32 处 理 器 线性 地 址 形成 过 程 


























位 移 量 1000H) 三 者 相 加 得 到 。 此 外 ,可 以 根据 段 限 和 存 取 权限 判断 是 否 “ 地 址 越界 ”和 “ 访 
问 越权 ”, 以 实现 存储 保护 。 形 成 线性 地 址 后 ,再 通过 分 页 方式 实现 从 线性 地 址 到 物理 地 址 
的 转换 ,这 个 步骤 对 程序 员 来 讲 是 透明 的 。 

此 外 ,IA-32 指令 系统 还 有 以 下 一 些 特征 : 调用 指令 自动 把 返回 地 址 压 到 栈 中 ;并 有 专 
门 的 入 栈 Cpush) 和 出 栈 (pop) 指 令 , 能 自动 修改 栈 指针 ;运算 类 指令 生成 的 条 件 码 存放 在 标 
志 寄 存 器 EFLAGS 中 ;运算 类 指令 中 的 一 个 操作 数 可 以 来 自主 存单 元 。 


“4.3.2 ARM 指令 系统 

ARM 属于 RISC 风格 指令 系统 ,有 16 个 32 位 通用 寄存 器 ,一 个 当前 程序 状态 寄存 器 
CPSR。ARM 系统 所 有 指令 的 长 度 都 是 32 位 ,而 且 具 有 比较 规整 的 格式 。 如 图 4.9 所 示 ， 
指令 的 前 4 位 是 条 件 码 ; 紧 接着 的 3 位 表示 指令 格式 ;对 于 除了 跳 转 指令 以 外 的 大 多 数 指令 
来 说 ,再 接 下 来 的 5 位 是 操作 码 和 (或 ) 操 作 码 的 修订 码 ; 剩 余 的 20 位 用 于 操作 数 的 寻 址 。 


31 2827 2524 21 20 19 1615 1211 76 5543 0 




































































cond 000 opcode S| Rn | Rd 移 位 量 M |0 Rm 立即 数 移 位 
cond 000 opcode S Rn | Rd Rs 0 | M 1 Rm 寄存 器 移 位 
cond | 001 opcode |S| Rn | Rd “| 循环 移 位 量 立即 数 立即 数 
装 和 /| end | oilo[plulelw[cl rn | ra 立即 数 立即 数 偏 移 
存储 cond | O01l |PIUIBIWIL| Rn | Rd 移 位 量 M |0 Rm 寄存 器 偏 移 
人 cond | 100|p[ulsIwlL rn | 寄存 器 列表 
跳 转 | cond 101 |L 24 位 立即 数 偏 移 

















图 4.9 ARM 指令 格式 


ARM 指令 系统 有 数据 处 理 、 装 人 /存储 、 多 数据 装 入 /存储 、 跳 转 ( 条 件 / 无 条 件 转 移 ) 等 
几 种 类 型 指令 格式 。 

1. 数据 处 理 指令 格式 

数据 处 理 类 指令 格式 中 ,opcode 为 指令 操作 码 ;S 指 是 否 影响 CPSR 的 内 容 ;Rd 为 目的 
寄存 器 ;Rn 为 第 一 个 操作 数 所 在 的 寄存 器 ;第 二 个 操作 数 有 3 种 形式 : 立即 数 移 位 、 寄 存 器 
移 位 和 立即 数 。 

立即 数 移 位 和 寄存 器 移 位 两 种 方式 下 ,指令 格式 位 都 是 000, 因 此 由 第 4 位 进行 区 分 ， 
为 0 表示 立即 数 移 位 方式 ,为 1 表示 寄存 器 移 位 方式 。 两 者 都 是 将 Rm 中 的 32 位 数 按照 
M 指定 的 方式 进行 移 位 ,前 者 的 移 位 位 数 由 “ 移 位 量 ” 指 定 ;后 者 的 移 位 位 数 由 Rs 寄存 器 的 
内 容 指定 。 移 位 操作 在 ARM 指令 集中 不 作为 单独 的 指令 使 用 ,可 以 在 一 条 指令 中 先进 行 
移 位 操作 ,再 进行 加 、 减 等 运算 。 

立即 数 方式 下 ,指令 格式 为 001, 第 二 个 操作 数 由 8 位 的 “立即 数 ” 高 位 补 0 扩展 成 32 
位 数据 后 再 循环 右 移 得 到 ,循环 右 移 位 数 为 4 位 “循环 移 位 量 ” 的 两 倍 , 即 移 位 位 数 总 是 偶 
数 。 例 如 ,汇编 指令 “MOV RO， #0x0000F200” 的 机 器 代码 用 十 六 进 制 表示 为 E3A00CF2， 
说 明 立 即 数 0x0000F200 是 由 F2 循环 右 移 24 位 得 到 的 。 机 器 代码 中 的 C 为 “循环 移 位 量 ” 
字段 ,F2 为 “立即 数 ?字段 ,因此 , 移 位 位 数 为 12 的 两 倍 。 





计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





2. 装 入 /存储 指令 格式 

装 入 /存储 指令 中 ,存储 器 操作 数 的 有 效 地 址 为 Rn 的 内 容 加 偏 移 量 ,而 偏 移 量 可 以 是 
一 个 立即 数 , 也 可 以 是 寄存 器 Rm 的 内 容 移 位 以 后 的 值 ,其 移 位 方式 与 数据 处 理 指 令 格式 中 
的 寄存 器 移 位 方式 相同 。 

操作 码 字段 中 的 P.U、W 3 个 位 用 来 区 分 不 同 的 寻 址 模式 ;B 用 来 区 分 访问 的 数据 长 
度 ;L 用 来 区 分 是 装 人 (load) 还 是 存储 (store) 。 

3. 多 数据 装 入 /存储 指令 格式 

ARM 指令 系统 支持 多 数据 装 人 /存储 指令 ,一 条 指令 可 以 实现 在 主 存 的 多 个 连续 单元 
与 多 个 寄存 器 之 间 的 数据 交换 。 例 如 ,汇编 指令 “LDMIA R0，{R1l-R5}” 的 功能 就 是 将 以 
R0 的 内 容 为 起 始 地 址 的 5 个 字数 据 分 别 装 入 R1、R2、R3、R4 和 R5 中 。 指 令 中 的 助 记 符 
IA 表示 在 执行 完 一 次 装 人 (load) 操 作 后 ,RO 自动 增 4。 

操作 码 字 段 中 的 P.U、W 和 工 的 含义 同 装 和 人 /存储 指令 格式 。S 表示 指令 是 否 仅 在 特 
权 模 式 ( 核 心态 ) 下 才能 使 用 。 

4. 跳 转 指令 格式 

跳 转 指令 的 操作 码 字 段 只 有 一 个 工 位 ,用 来 指明 是 否 将 下 一 条 指令 地 址 作为 返回 地 址 保 
存 到 链接 寄存 器 (link register) 中 。 因 此 , 当 LL=1 时 , 跳 转 指令 实际 上 相当 于 过 程 调 用 指令 。 

跳 转 指令 将 根据 cond 字段 给 出 的 条 件 判 断 要 求 进行 条 件 判断 ,在 条 件 满足 时 ,转移 到 
24 位 “立即 数 偏 移 " 字 段 所 指定 的 位 置 执行 指令 。 

从 图 4. 9 给 出 的 指令 格式 中 可 以 看 出 ,ARM 指令 中 每 条 指令 都 有 一 个 cond 字段 ,该 
字段 给 出 的 条 件 判断 要 求 如 表 4. 3 所 示 ,其 中 ,第 三 栏 中 的 Z 表 示 零 标志 ,C 表示 进位 / 借 位 
标志 ,N 表示 符号 标志 ,V 表示 溢出 标志 。 表 中 第 一 栏 操作 码 指 cond 字段 给 出 的 条 件 码 ， 
4 位 的 条 件 码 共有 16 种 情况 ,其 中 , 当 条 件 码 为 0000 一 1101 时 ,需要 根据 当前 程序 状态 寄 
存 器 CPSR 中 的 标志 位 是 否 满足 条 件 ,来 确定 是 否 执行 指令 ; 当 条 件 码 为 1110 时 ,不 管 标志 
位 是 什么 都 要 执行 指令 。 例 如 ,对 于 跳 转 指令 ,如 果 条 件 码 为 1110, 则 默认 为 无 条 件 执行 跳 
转 ; 当 条 件 码 为 1111 时 ,不 管 标志 位 是 什么 都 不 会 执行 指令 。 

表 4.3 cond 字段 的 含义 












































操 作 码 条 件 助 记 符 标 志 会 。 叉 
0000 EQ 2Z=1 相等 
0001 NE Z=0 不 相等 
0010 CS/HS C=1 无 符号 数 大 于 或 等 于 
0011 CC/LO C=0 无 符号 数 小 于 
0100 MI N=1 负数 
0101 PL N=0 正 数 或 零 
0110 VS V=1 溢出 
0111 VC V=0 没有 溢出 
1000 HI C=1,2=0 无 符号 数 大 于 
1001 LS C 一 0.Z 一 1 无 符号 数 小 于 或 等 于 
1010 GE N=V 带 符 号 整数 大 于 或 等 于 

















续 表 
操 作 码 条 件 助 记 符 标 志 含义 
1011 ET N!I=V 带 符 号 整数 小 于 
1100 GT Z=0,N=V 带 符号 整数 大 于 
1101 LE 2Z=1,N!=V 带 符号 整数 小 于 或 等 于 
1110 AL 任何 无 条 件 执行 (指令 默认 条 件 ) 
1111 NV 任何 从 不 执行 (不 要 使 用 ) 











ARM 指令 系统 提供 了 立即 数 寻 址 、 立 即 数 移 位 寻 址 、 寄 存 器 寻 址 、 寄 存 器 移 位 寻 址 、 寄 
存 器 间接 寻 、 基 址 ( 变 址 ) 寻 址 、 相 对 寻 址 、 多 寄存 器 寻 址 和 栈 寻 址 共 9 种 寻 址 方式 。 


4.4 程序 的 机 器 级 表示 


不 管用 什么 高 级 语言 编写 的 源 程序 ,最 终 都 必须 翻译 (汇编 .解释 或 编译 ) 成 以 指令 形式 
表示 的 机 器 语言 ,才能 在 计算 机 上 运行 。 本 节 简 单 介 绍 高 级 语言 源 程序 转换 为 机 器 代码 过 
程 中 涉及 的 一 些 基 本 问题 。 为 方便 起 见 , 本 节选 择 具体 语言 进行 说 明 , 高 级 语言 和 机 器 语言 
分 别 选用 C 语言 和 MIPS 指令 系统 。 其 他 情况 下 ,其 基本 原理 不 变 。 


4.4.1 MIPS 汇编 语言 和 机 器 语言 


机 器 语言 程序 是 一 个 由 若干 条 指令 组 成 的 序列 。 从 前 面 对 指 令 格 式 的 介绍 可 以 知道 ， 
每 条 指令 由 若干 字段 组 成 ,每 个 字段 都 是 一 串 由 0、1 组 成 的 二 进 制 数字 序列 。 所 以 ,程序 员 
要 读 懂 一 个 机 器 语言 程序 很 费劲 ,也 很 难 用 机 器 语言 直接 编写 程序 。 

为 了 能 直观 地 表示 机 器 语言 程序 ,引入 了 一 种 与 机 器 语言 一 一 对 应 的 符号 化 表示 语言 ， 
称 为 汇编 语言 。 汇 编 语 言 中 ,用 容易 记忆 的 英文 单词 或 缩写 来 表示 指令 操作 码 的 含义 ,用 标 
号 .变量 名 称 .寄存 器 名 称 .常数 等 表示 操作 数 或 地 址 码 。 这 些 英文 单词 或 其 缩写 .标号 、 变 
量 名 称 等 都 被 称 为 助 记 符 。 以 下 简要 介绍 MIPS 指令 系统 和 MIPS 汇编 语言 。 

1. MIPS 指令 中 数据 的 表示 

MIPS 提供 了 32 个 32 位 通用 寄存 器 ,寄存 器 编号 占 5 位 ,各 寄存 器 的 名 称 、 编 号 和 功 
能 见 表 4. 4。 


表 4.4 MIPS 通用 寄存 器 


























名 称 编 号 功 能 

Zero 0 恒 为 0 

at 1 为 汇编 程序 保留 

vO~vl 2 过 程 调用 返回 值 

a0 一 a3 4 一 7 过 程 调用 参数 

t0~t7 8~15 临时 变量 ,在 被 调用 过 程 无 须 保存 
s0 一 s7 16 一 23 在 被 调用 过 程 需 保 存 

t8~t9 24~25 临时 变量 ,在 被 调用 过 程 无 须 保存 
kO~kl 26~27 为 OS 保留 
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续 表 
名 称 编 号 功 能 
gp 28 全 局 指针 
sp 29 栈 指针 
fp 30 帧 指针 
Ta 31 过 程 调用 返回 地 址 





寄存 器 的 汇编 表示 以 $ 符 号 开始 ,可 以 使 用 名 称 ( 如 $ a0) ,也 可 以 使 用 编号 (如 $4) 。 

MIPS 还 提供 了 32 个 32 位 的 单 精度 浮 点 寄存 器 ,用 汇编 符号 $fo 一 $f31 表示 。 它 们 
可 配对 成 16 个 64 位 浮 点 寄存 器 ,用 来 存放 64 位 双 精 度 浮 点 数 。 

另外 ,MIPS 中 提供 了 两 个 乘 商 寄 存 器 Hi 和 Lo, 它们 无 须 程序 员 在 指令 中 显 式 地 给 
出 。 用 32 位 的 Hi 和 Lo 可 实现 64 位 寄存 器 。 在 执行 乘法 运算 时 ,Hi 和 Lo 联合 用 来 存放 
64 位 乘积 ;而 在 执行 除法 运算 时 ,最 终 的 余数 存放 在 Hi 中 , 商 在 Lo 中 。 

MIPS 中 用 程序 计数 器 PC 指出 下 一 条 指令 的 地 址 。 

MIPS 的 存储 器 按 字 节 编 址 。 对 于 存储 器 数据 ,其 操作 数 地 址 为 32 位 ,通过 一 个 32 位 
寄存 器 的 内 容 加 16 位 偏 移 量 得 到 ,16 位 偏 移 量 是 带 符号 整数 , 故 可 访问 的 地 址 空间 大 小 为 
4GB。 采 用 大 端 方式 存放 数据 ,数据 要 求 按 字 边界 对 齐 。 只 能 通过 Load/Store 指令 访问 存 
储 器 数据 。 

对 于 立即 操作 数 ,指令 中 给 出 的 位 数 为 16 位 ,指令 执行 时 ,需要 将 其 进行 符号 扩展 或 0 
扩展 , 变 成 32 位 操作 数 后 才能 参加 运算 。 

2. MIPS 指令 格式 和 寻 址 方式 

MIPS 是 典型 的 RISC 处 理 器 ,采用 32 位 定 长 指令 字 , 操 作 码 字段 也 是 固定 长 度 , 没 有 
专门 的 寻 址 方式 字段 ,由 指令 格式 确定 各 操作 数 的 寻 址 方式 。 

指令 格式 只 有 3 种 ,如 图 4. 10 所 示 。 


31 2625 21 20 1615 1110 65 0 









































OP TS rt rd shamt func 
(a) R- 型 指令 
31 26 25 21 20 1615 0 
OP rs rt 立即 数 
(b) 工 型 指令 
31 2625 0 
OP 直接 地 址 
(c) 工 型 指令 


图 4.10 MIPS 指令 格式 


R- 型 指令 是 RR 型 指令 ,其 操作 码 OP 为 000000 ,操作 类 型 由 func 字段 指定 ,若是 双 目 
运算 类 指令 , 则 rs 和 rt 的 内 容 分 别 作 为 第 一 和 第 二 源 操作 数 ,结果 送 rd; 若 是 移 位 指令 , 则 
对 rt 的 内 容 进行 移 位 ,结果 送 rd, 所 移 位 数 由 shamt 字段 给 出 。 因 为 一 条 指令 需要 左 移 或 
右 移 若 干 位 ,所 以 MIPS 中 移 位 指令 多 用 桶 形 移 位 器 实现 以 提高 速度 。R 型 指令 的 寻 址 方 
式 只 有 一 种 ,就 是 寄存 器 寻 址 。 


工 型 指令 是 立即 数 型 指令 ,若是 双 目 运算 类 指令 , 则 将 rs 的 内 容 和 立即 数 分 别 作为 第 一 
和 第 二 源 操作 数 ,结果 送 rt; 若 是 Load/Store 指令 , 则 将 rs 的 内 容 和 立即 数 符号 扩展 后 的 
内 容 相 加 作为 内 存单 元 地 址 ,Load 指令 将 内 存单 元 内 容 送 rt, Store 指令 将 rt 内 容 送 内 存 
单元 ;若是 条 件 转 移 ( 分 支 ) 指 令 , 则 对 rs 和 rt 内 容 进行 指定 的 运算 ,根据 运算 的 结果 ,决定 
是 否 转 到 转移 目标 地 址 处 执行 ,转移 目标 地 址 通过 相对 寻 址 方式 得 到 ,即将 PC 的 内 容 和 立 
即 数 符号 扩展 后 的 内 容 相 加 得 到 。 由 此 可 知 , 工 型 指令 的 寻 址 方式 有 4 种 ,就 是 寄存 器 寻 
址 、 立 即 数 寻 址 、 相 对 寻 址 、 基 址 或 变 址 寻 址 。 

本 型 指令 主要 是 无 条 件 跳 转 指令 ,指令 中 给 出 的 是 26 位 直接 地 址 ,只 要 将 当前 PC 的 高 
4 位 拼 上 26 位 直接 地 址 ,最 后 添 两 个 0 就 可 以 得 到 32 位 的 跳 转 目标 地 址 。J- 型 指令 的 寻 址 
方式 只 有 一 种 ,就 是 变通 的 直接 寻 址 。 

例 4.2 为 什么 二 型 指令 中 的 跳 转 目标 地 址 最 后 两 位 要 添 0? 如 何 实现 该 功能 ? 

解 : 因为 MIPS 机 器 采用 32 位 定 长 指令 字 , 其 存储 单元 采用 字 节 编 址 ,所 以 一 条 指令 
占 4 个 存储 单元 ,因而 ,指令 地 址 总 是 4 的 倍数 , 即 地 址 最 后 两 位 总 是 0 ,无 须 在 指令 中 显 式 
给 出 ,只 要 在 实现 指令 功能 的 数据 通路 中 具有 添加 00 的 电路 即 可 。 

3. MIPS 汇编 语言 

表 4.5 和 表 4. 6 分别 是 MIPS 汇 编 语 言 和 机 器 代码 示例 列表 。 表 4. 5 中 列 出 了 常 
用 的 5 类 指令 : 算术 运算 、 存 储 访问 、 逻 辑 运 算 、 条 件 分 支 . 无 条 件 跳 转 。 每 类 中 给 出 最 
具 代 表 性 的 指令 的 名 称 、 汇 编 形 式 示 例 、 含 义 和 文 字 说 明 。 表 4. 6 中 给 出 了 常用 指令 
的 机 器 代码 示例 ,分 别 包 括 操作 码 汇编 助 记 符 、 指 令 格式 类 型 .指令 各 字段 的 十 进 制 值 
和 对 应 的 汇编 表示 。 


表 4.5 MIPS 汇编 语言 示例 列表 
























































类 别 指令 名 称 汇编 举例 含 沈 备 注 

算术 | add add $sl, $s2, $s3 | $sl= $s2 十 $s3 三 个 寄存 器 操作 数 

运算 | subtract sub $sl, $s2, $s3 | $sl 一 $s2— $s3 三 个 寄存 器 操作 数 

存储 | load word lw $sl,100( $s2) | $sl 二 Memory[ $s2 十 100] | 从 内 存 取 一 个 字 到 寄存 器 

访问 | store word sw $sl,100( $s2) | Memory[ $s2 十 100]== $sl | 从 寄存 器 存 一 个 字 到 内 存 
and and $sl, $s2, $s3 $sl= $s2 & $s3 三 个 寄存 器 操作 数 , 按 位 与 
or or $sl, $s2, $s3 $sl= $s2 | $s3 三 个 寄存 器 操作 数 , 按 位 或 
nor nor $sl, $s2, $s3 $sl=~($s2 | $s3) 三 个 寄存 器 操作 数 , 按 位 或 非 

and immediate | andi $s1, $s2,100 | $s1= $s2 & 100 寄存 器 和 常数 , 按 位 与 
or immediate ori $sl, $s2 ,100 $sl= $s2 | 100 寄存 器 和 常数 , 按 位 或 
shift left logical | sll $s1, $s2,10 $sl= $s2<10 按 常数 对 寄存 器 逻辑 左 移 
shift right logical | srl $sl1, $s2,10 $s1l= $s2>>10 按 常 数 对 寄存 器 逻辑 右 移 

家 六 branch on equal | beq $sl, $s2,L if( $sl== $s2) go to L 相等 则 转移 

分 支 0 D0 | bne $sl, $s2,L | if($sl! 一 $s2) go toL | 不 相等 则 转移 
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续 表 
类 别 | 指令 名 称 汇编 举例 含 义 备 注 
if( $s2< $s3) $s1=1; 小 于 风 为 1, 否则 
| re 人 机 于 让 为 下 有 
分 支 | set on less 让 ( $s2 一 100) $s1 一 1; | 小 于 常数 则 置 寄存 器 为 1, 否 
人 则 为 0, 用 于 后 续 指令 判 0 
无 条 jump j E gotoL 直接 跳 转 至 目标 地 址 
件 跳 | jump register jr $ra go to $ra 过 程 返 回 
转 jump andlink |jal L $ra 二 PC 十 4; go to L | 过 程 调用 
表 4.6 MIPS 机 器 代码 示例 列表 
指 令 | 格式 指令 举例 汇编 表示 
add R 0 18 19 17 0 32 add $sl, $s2, $s3 
sub R 0 18 19 17 0 34 sub $sl, $s2, $s3 
lw I 35 18 17 100 lw $sl,100( $s2) 
Sw I 43 18 17 100 sw $sl,100( $s2) 
and R 0 18 19 17 0 36 and $sl, $s2, $s3 
or R 0 18 19 17 0 37 or $sl, $s2, $s3 
nor R 0 18 19 17 0 39 nor $sl, $s2, $s3 
andi I 12 18 17 100 andi $sl, $s2,100 
ori I 13 18 17 100 ori $sl, $s2,100 
sll R 0 0 18 17 10 0 sll $sl, $s2,10 
srl R 0 0 18 17 10 2 srl $sl, $s2,10 
beq I 4 17 18 25 beq $sl, $s2,100 
bne 各 5 17 18 25 bne $sl,$s2,100 
slt R 0 18 19 vl 0 42 slt $sl, $s2, $s3 
j J 效 2500 j 10000 
jr R 0 3 0 0 0 8 jr S$ra 
jal J 3 2500 jal 10000 
Field size 6bits 5bits 5bits 5bits 5bits 6bits 
R-format R OP rs rt rd shamt func 
工 format OP TS rt address 




















从 这 两 个 表 中 可 明显 看 出 机 器 代码 和 汇编 表示 的 一 一 对 应 关系 。 根 据 机 器 代码 和 汇编 
表示 之 间 的 对 应 表 ( 称 为 指令 解码 表 ) ,可 以 很 容易 地 实现 两 者 的 转换 。 从 汇编 表示 转换 为 
机 器 代码 的 过 程 称 为 汇编 ,从 机 器 代码 转换 为 汇编 表示 的 过 程 称 为 反 汇 编 。 


例 4.3 若 从 MIPS 指令 机 器 代码 与 汇编 表示 对 应 表 中 查 出 操作 码 (OP 字段 )000000 
对 应 R- 型 指令 ,又 从 R- 型 指令 解码 表 中 查 到 功能 码 (func 字段 )100000 对 应 add 指令 。 回 
等 下列 问题 。 

(1) 汇编 表示 “add $t0, $sl, $s2” 对 应 的 MIPS 指令 的 机 器 代码 是 什么 ? 

(2) 假定 一 条 MIPS 指令 的 二 进 制 机 器 代码 表示 为 0000 0000 1010 1111 1000 0000 
0010 0000 , 则 该 指令 对 应 的 MIPS 汇编 表示 形式 是 什么 ? 

解 : 汇编 和 反 汇 编 过程 依 赖 于 解码 表 进 行 ,只 要 通过 查 表 就 可 实现 指令 的 机 器 代码 和 
汇编 表示 之 间 的 转换 。 

(1) 由 表 4.6 可 知 ,add 指令 是 R- 型 指令 ,对 应 的 OP 字段 为 0, 即 二 进 制 000000,func 
字段 为 32, 即 二 进 制 100000,shamt 字段 为 0; 由 表 4.4 可 知 ,$t0、$ sl 和 $s2 的 编号 分 别 
为 8.17 和 18。 该 指令 各 字段 的 值 如 图 4. 11 所 示 。 

31 26 25 2120 16 15 11 10 6 5 0 


000000 | 10001 10010 01000 | 00000 100000 
OP TS It rd shamt func 


图 4.11 指令 各 字段 分 解 























因此 ,汇编 表示 “add $to, $sl, $s2” 对 应 的 指令 机 器 代码 是 0000 0010 0011 0010 
0100 0000 0010 0000。 

(2) 指令 的 前 6 位 操作 码 为 000000, 是 一 条 R- 型 指令 ,按照 R- 型 指令 的 格式 ,指令 分 解 
为 如 图 4. 12 所 示 的 6 个 字段 ,得 到 rs 二 00101,rt Dn 10000, shamt = 00000, func 
一 100000。 








31 2625 2120 1615 1110 起 分 0 
000000 00101 | 01111 10000 | 00000 100000 
OP TS nt rd shamt func 


图 4.12 指令 各 字段 分 解 























由 表 4.6 可 知 是 add 操作 。rs、rt、rd 的 十 进 制 值 分 别 为 5、15、16, 从 表 4.4 知 ,它们 分 
别 为 $al、$t7 和 $s0。 故 汇编 形式 为 “add $s0，$al，$t7? 或 “add $16, $5, $15”。 


“4.4.2 选择 结构 的 机 器 代码 表示 


过 程式 程序 设计 语言 提供 顺序 .选择 和 循环 3 种 控制 结构 。 选 择 结构 根据 判定 条 件 来 
控制 一 些 语句 是 否 被 执行 。 例 如 ,有 if-then.,if-then-else、case( 或 switch) .if…goto 等 选择 
语句 。 对 应 高 级 语言 中 的 这 些 选择 语句 ,在 机 器 语言 中 提供 了 各 种 条 件 码 ( 标 志 位 ) 的 设置 
功能 以 及 各 种 分 支 (条 件 转移 ) 指 令 和 无 条 件 转移 指令 。 编 译 器 通过 条 件 码 设置 指令 和 各 类 
转移 指令 来 实现 程序 中 选择 结构 语句 。 

例 4.4 假定 C 语 言 赋值 语句 f==(g 十 h) 一 (i 十 ));” 中 变量 ij、f.g.h 由 编译 器 分 别 
分 配给 MIPS 寄存 器 $t0 一 $tt。 要 求 给 出 编译 后 的 MIPS 机 器 代码 和 汇编 表示 。 

解 : 只 要 用 3 条 R- 型 指令 即 可 ,其 中 ,有 两 条 是 add 指令 ,有 一 条 是 sub 指令 。3 条 指 
令 的 OP 字段 都 为 000000 ,根据 表 4. 6 可 知 ,add 指令 的 func 字段 为 32 王 100000B,sub 指 
令 的 func 字段 为 34 二 100010B。 从 表 4.4 可 知 ,寄存 器 $t0 一 $t7 对 应 8 一 15 。 所 以 ,上 述 





计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





程序 段 对 应 的 MIPS 机 器 代码 和 汇编 表示 ( 井 后 为 注释 ) 如 下 : 


000000 01011 01100 01101 00000 100000 add $t5, $t3, $t4 #g+h 
000000 01000 01001 01110 00000 100000 add $t6, $t0, $t1 # 计 + 了 
000000 01101 01110 01010 00000 100010 sub $t2, $t5, $t6 #f= (g+h)- (i+j) 


例 4.5 对 于 C 程 序 段 “if(i===j) {=g 十 h; else {二 g 一 h;”, 假 定 i、j、f、g \h 由 编译 器 
分 别 分 配给 MIPS 寄存 器 $ sl1~ $s5。 要 求 给 出 编译 后 的 MIPS 汇编 表示 。 

解 : 首先 要 有 一 条 分 支 指令 能 根据 i\j 是 否 相 等 进行 转移 ,所 以 ,选用 表 4. 5 中 beq 或 
bne 指令 。 此 外 ,还 要 有 一 条 无 条 件 转 移 指令 ,可 选用 表 4. 5 中 的 j 指令 。 上 述 程 序 段 对 应 
的 MIPS 汇编 表示 如 下 : 


bne $sl, $s2, else #i 天 j，jump to else 
add $s3, $s4, $s5 #f=g+h 
j exit #jump to exit 

else: sub $s3, $s4, $s5 #f=g-h 


exit: 


例 4.6 对 于 CC 程序 段 “if(i<j) { 一 g 十 hy else {二 g 一 h;”, 假 定 ij、f、gh 由 编译 器 分 
别 分 配给 MIPS 寄存 器 $ sl1~ $s5。 要 求 给 出 编译 后 的 MIPS 汇编 表示 。 

解 : 首先 要 有 一 条 比较 i、j 大 小 的 指令 ,该 指令 能 根据 比较 结果 设置 标志 位 ,然后 分 支 
指令 根据 标志 位 的 值 进行 转移 ,因此 ,应 选用 表 4. 5 中 的 slt 指令 .beq 或 bne 指令 。 在 比较 
标志 位 的 值 时 ,需要 判断 是 否 为 0, 此 时 ,用 0 号 寄存 器 $zero 表示 0。 上 述 程序 段 对 应 的 
MIPS 汇编 表示 如 下 : 


slt $s6, $sl, $s2 #if (i<j) $s6=1 else $s6=0 
beq $s6, $zero, else #if $s6=0, jump to else 
add $s3, $s4, $s5 #f=g+h 
j exit #jump to exit 

else: sub $s3, $s4, $s #f=g-h 


exit: 


“4.4.3 循环 结构 的 机 器 代码 表示 


循环 结构 是 指 可 重复 执行 的 一 组 语句 。 例 如 ,有 while、until、for、loop: …goto loop 等 
循环 语句 。 分 支 指令 在 循环 结构 中 也 起 重要 作用 ,主要 用 来 判断 循环 条 件 是 否 结束 。 此 外 ， 
大 多 数 循环 体内 需要 对 数组 元 素 进行 处 理 , 因 此 ,需要 用 到 自动 变 址 寻 址 ,如 果 指 令 系 统 不 
提供 自动 变 址 , 则 编译 器 需要 选用 对 变 址 器 进行 增 量 的 指令 来 使 每 次 循环 按 顺 序 取 不 同 的 
数组 元 素 。 

例 4.7 以 下 是 一 个 C 程 序 段 : 

while (i!=k) { 


x=x+A[il; 


i=i+1; 


假定 zz 由 编译 器 分 别 分 配给 MIPS 寄存 器 $sl1、$s2、$s3, 数 组 A 的 每 个 元 素 为 
一 个 32 位 字 , 首 地 址 存放 在 $ s5 中 ,要 求 给 出 编译 后 的 MIPS 汇编 表示 。 

解 : 循环 体内 有 一 个 数组 元 素 的 访问 ,首先 要 计算 每 次 循环 中 数组 元 素 A[ 菇 的 地 址 ， 
它 应 等 于 A 的 首 地 址 加 上 偏 移 量 ,因为 数组 元 素 是 一 个 字 , 所 以 偏 移 量 等 于 ;X4, 可 以 用 乘 
法 指令 实现 ,也 可 以 用 加 法 指令 (两 次 加 倍 ) 或 移 位 指令 ( 左 移 2 位 ) 来 实现 X4。 从 第 3 章 介 
绍 的 运算 算法 来 看 ,乘法 指令 所 需 的 时 间 最 长 ,所 以 一 般 不 用 乘法 指令 实现 X4 操作 。 从 内 
存 读 取 数 组 元 素 的 功能 用 指令 lw 实现 。 

循环 开始 时 , 先 用 分 支 指令 beq 判断 循环 结束 条 件 ,以便 在 循环 结束 条 件 满足 时 跳出 循 
环 体 。 循 环 结束 后 的 第 一 条 指令 用 一 个 标号 Exit 标识 ;循环 最 后 要 有 一 条 无 条 件 转移 指令 
j, 以 转 到 循环 体 的 开始 ,循环 体内 第 一 条 指令 的 标号 为 Loop。 

MIPS 没有 自动 变 址 寻 址 方式 ,因此 用 一 条 显 式 加 法 指令 addi 实现 数组 下 标 增 量 。 

编译 后 的 MIPS 汇编 表示 如 下 。 


Loop: beq $s3, $s2, Exit 
add $37 $382, $32 #iX2 
add $s7, $s7, $s7 #iX4 
add $s7, $s7, $s5 
lw $s6, 0($s7) #$6=A[i] 
add Sol Sal $6 #x=x+A [i] 
addi $s2, $s2,1 #i+ 1 
要 Loop 
Blts se 


“4.4.4 过 程 调 用 的 机 器 代码 表示 


子 程序 的 使 用 有 助 于 提高 程序 的 可 读 性 ,并 有 利于 代码 重用 , 它 是 程序 员 进 行 模块 化 编 
程 的 重要 手段 。 子 程序 的 使 用 主要 是 通过 过 程 或 函数 调用 实现 ,为 叙述 方便 起 见 , 本 教材 将 
过 程 ( 调 用 ) 和 函数 (调用 ) 统 称 为 过 程 ( 调 用 )。 过 程 允 许 程序 员 使 用 参数 将 过 程 与 其 他 程序 
和 数据 分 离 ,调用 过 程 只 要 传送 输入 参数 给 被 调用 过 程 , 最 后 再 由 被 调用 过 程 返回 结果 参数 
给 调用 过 程 即 可 。 将 整个 程序 分 成 若干 过 程 后 ,编译 器 对 每 个 过 程 分 别 编译 。 为 了 彼此 统 
一 ,并 能 配合 操作 系统 工作 ,编译 的 过 程 代 码 之 间 必 须 遵循 一 定 的 调用 接口 约定 ,编译 器 和 
汇编 程序 员 必 须 强制 按照 这 些 约定 生 成 或 编写 机 器 级 代码 ,包括 寄存 器 的 使 用 、 栈 帧 的 建立 
和 参数 传递 等 。 

1. MIPS 中 用 于 过 程 调用 的 指令 

调用 指令 是 一 种 无 条 件 转移 指令 ,在 MIPS 中 称 为 跳 转 并 链接 (jump and link) 指 令 , 指 
令 助 记 符 为 jal, 采 用 本 型 格式 ,具有 两 个 功能 : @ 保 存 下 一 条 指令 地 址 ( 即 返回 地 址 ) 到 
31 号 寄存 器 ; @ 跳 转 到 指定 地 址 处 执行 。 其 汇编 形式 和 指令 格式 分 别 参见 表 4. 5 和 表 4. 6。 
例如 ,指令 jal 10000 的 功能 为 “$31 王 PC 十 4; go to 10000”。 

返回 指令 也 是 一 种 无 条 件 转移 指令 ,在 MIPS 中 称 为 寄存 器 跳 转 (jump register) 指 令 ， 
指令 名 称 为 jr, 采 用 R- 型 格式 ,其 功能 为 跳 转 到 寄存 器 指定 的 地 址 处 执行 。 其 汇编 形式 和 
指令 格式 分 别 参见 表 4.5 和 表 4. 6。 例 如 ,指令 jr $31 的 功能 为 转 到 调用 程序 的 返回 地 址 
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(在 $31 中 保存 ) 处 执行 ,jr 指令 中 的 寄存 器 也 可 以 是 除 $31 以 外 的 其 他 寄存 器 ,所 以 ， 
jr 指令 也 可 用 于 switch case 语句 中 的 跳 转 执行 。 

2. 过 程 调用 时 MIPS 寄存 器 的 使 用 约定 

假定 过 程 P 调用 过 程 Q, 则 过 程 调用 的 执行 步骤 如 下 。 

(1) P 将 和 人口 参 数 放 到 Q 能 访问 到 的 地 方 。 

(2) 了 将 返回 地 址 存 到 特定 的 地 方 , 然 后 将 控制 转移 到 Q。 

(3) Q 为 P 保存 现场 ,并 为 自己 的 局 部 变量 分 配 空 间 。 

(4) 执行 过 程 Q。 

(5) Q 将 返回 结果 放 到 了 能 访问 到 的 地 方 。 

(6) Q 取出 返回 地 址 ,将 控制 转移 到 了 。 

从 上 述 执行 步骤 来 看 ,在 过 程 调用 中 ,需要 为 人 口 参 数 .返回 地 址 .调用 过 程 执行 时 用 到 
的 寄存 器 、 被 调用 过 程 中 的 局 部 变量 .过 程 返回 时 的 结果 等 数据 找到 存放 空间 。 如 果 有 足够 
的 寄存 器 ,最 好 把 这 些 数据 都 保存 在 寄存 器 中 ,这 样 ,CPU 执行 指令 时 ,可 以 快速 地 从 寄存 
器 取得 这 些 数 据 进行 处 理 。 但 是 ,用 户 可 见 寄存 器 数量 有 限 ; 并 且 它 们 是 所 有 过 程 共享 的 ， 
给 定时 刻 只 能 被 一 个 过 程 使 用 ;此 外 ,对 于 过 程 中 使 用 的 一 些 局 部 变量 (如 数组 和 结构 等 复 
杂 类 型 数据 ) 也 不 可 能 保存 在 寄存 器 中 。 因 此 ,除了 寄存 器 外 ,还 需要 有 一 个 专门 的 存储 区 
域 来 保存 这 些 数据 ,这 个 存储 区 域 就 是 栈 (stack)。 那 么 ,上 述 数 据 中 哪些 存放 在 寄存 器 , 哪 
些 存放 在 栈 中 呢 ? 寄存 器 和 栈 的 使 用 又 有 哪些 规定 呢 ? 

尽管 硬件 对 寄存 器 的 用 法 几乎 没有 任何 规定 ,但 在 软件 实际 使 用 寄存 器 时 还 要 遵循 一 
定 的 惯例 ,使 程序 员 编译 器 和 操作 系统 等 都 按照 统一 的 约定 处 理 。 

假定 过 程 P 调 用 过 程 Q, 则 MIPS 程序 中 对 过 程 调用 时 寄存 器 的 使 用 规定 如 下 (参见 
表 4.4)。 

(1) $a0 一 $a3 用 于 传递 前 4 个 非 浮 点 数 入 口 参数 ,在 过 程 P 中 应 先 将 入 口 参数 送 入 
$a0 一 $a3, 然 后 调用 Q。 若 人 口 参 数 超过 4 个, 则 其 余 参 数 保存 到 栈 中 。 

(2) $v0 一 $vl 用 于 传递 从 Q 返回 的 非 浮 点 数 返 回 参数 ,在 过 程 Q 中 应 先 将 返回 参数 
送 入 $v0 一 $vl 再 返回 P。 

(3) $ ra 用 于 存放 返回 地 址 ,由 调用 指令 (jal) 自动 将 返回 地 址 送 入 $ra( 即 $31) 。 

(4) $s0 一 $s7 在 过 程 P 中 原来 的 值 从 过 程 Q 返回 后 可 被 P 继续 使 用 ,因此 , 若 在 过 
程 Q 中 使 用 这 些 寄 存 器 , 则 必须 先 将 其 内 容 保 存 到 栈 后 才能 使 用 ,并 在 返回 了 前 恢复 , 因 
此 ,它们 被 称 为 保存 寄存 器 。 

(5) $t0 一 $t9 的 值 从 过 程 Q 返回 后 在 P 中 不 再 需要 使 用 , 若 需要 则 由 了 自己 保存 ， 
因此 ,在 过 程 Q 中 不 需 对 其 内 容 保存 ,可 以 自由 使 用 ,因此 ,它们 被 称 为 临时 寄存 器 。 

(6) $a0 一 $a3 的 值 从 过 程 Q 返回 后 在 P 中 也 不 再 需要 使 用 , 若 需要 ,也 由 了 自己 保 
存 , 因 此 ,过 程 Q 不 需要 为 过 程 P 对 其 内 容 进 行 保存 。 

3. MIPS 中 的 栈 和 栈 帧 

上 文 提 到 ,过程 调 用 时 的 一 些 数据 除了 可 存放 到 寄存 器 外 ,还 有 一 些 数据 被 存放 到 栈 
中 。MIPS 中 有 一 个 专门 的 栈 指针 寄存 器 $ sp, 用 来 指示 栈 顶 元 素 , 栈 中 每 个 元 素 的 长 度 为 
32 位 ,没有 专门 的 人 栈 指令 (push) 和 出 栈 指令 (pop)。 人 和 人 栈 .出 栈 操作 分 别 用 sw 、lw 指令 
实现 ,因而 不 能 自动 进行 栈 指针 调整 , 需 用 addi 指令 调整 $ sp 的 值 。 


MIPS 中 , 栈 从 高 地 址 向 低地 址 方向 “增长 ”, 而 取 数 、 存 数 则 从 低地 址 向 高 地 址 方向 进行 ， 
MIPS 采 用 大 端 方式 ,每 入 栈 1 个 字 , 则 $ sp 一 4>$ sp, 每 出 栈 1 个 字 , 则 $ sp 十 4-> $ sp。 

例 4.8 假定 将 返回 地 址 $ ra 和 参数 $ a0 保存 到 栈 中 , 写 出 其 指令 序列 ,并 画图 说 明 
$ra 和 $a0 在 栈 中 的 位 置 。 

解 : 假定 栈 指 针 寄 存 器 $ sp 指向 栈 顶 ,返回 地 址 $ ra 和 参数 $a0 从 栈 顶 处 开始 存放 ， 
其 存放 位 置 如 图 4. 13 所 示 。 
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在 栈 中 保存 信息 的 指令 序列 如 下 ， Ne 
Sra 栈 增 
addi $sp, $sp, -8 En $a0 长 的 
oy i 过 程 执行 中 的 $sp 一 一 | 方向 
Sw $a0, 0($sp) 低地 址 
每 个 过 程 都 有 自己 的 栈 区 , 称 为 栈 帧 (stack 图 4.13 栈 中 数据 的 存放 


frame) ,因此 ,一 个 栈 由 若干 栈 帧 组 成 ,每 个 栈 帧 用 
专门 的 帧 指针 寄存 器 指定 起 始 位 置 , MIPS 中 的 帧 指针 寄存 器 是 $ fp。 当 前 栈 帧 范围 在 
帧 指针 $ fp 和 栈 指针 $ sp 指向 区 域 之 间 。 过 程 执行 时 ,由 于 不 断 有 数据 入 栈 , 所 以 栈 
指针 会 动态 移动 ,而 帧 指针 固定 不 变 。 对 程序 来 说 ,用 固定 的 帧 指针 来 访问 变量 要 比 
用 变化 的 栈 指针 方便 得 多 ,也 不 易 出 错 ,因此 ,在 一 个 过 程 内 对 栈 中 信息 的 访问 大 多 通 
过 帧 指针 进行 。 但 是 ,如 果 当 前 过 程 的 栈 帧 ( 即 当前 栈 帧 ) 中 没有 局 部 变量 , 则 编译 器 
大 多 不 设置 和 恢复 帧 指针 ,以 减少 时 空 开销 。 当 需要 使 用 帧 指针 $fp 时 ,通常 以 过 程 
调用 时 的 栈 指针 $ sp 或 $ sp 一 4 作为 其 初始 值 ,这 样 ,$fp 总 是 指向 当前 栈 帧 前 一 个 字 或 
当前 栈 帧 第 一 个 字 的 起 始 位 置 。 

假定 过 程 P 调 用 过 程 Q, 则 在 调用 过 程 P 中 和 人 栈 保存 的 信息 称 为 调用 者 保存 信息 ， 
存放 在 过 程 P 的 栈 帧 中 ;在 被 调用 过 程 Q 中 人 栈 保 存 的 信息 称 为 被 调用 者 保存 信息 ， 
存放 在 Q 的 栈 帧 中 。 图 4. 14 给 出 了 在 过 程 调 用 前 、 调 用 中 和 调用 后 的 MIPS 用 户 栈 
的 变化 状态 。 

如 图 4. 14(a) 所 示 ,在 调用 过 程 中 遇 到 新 的 一 个 过 程 调用 时 ,调用 过 程 根据 需要 确定 是 
否 将 临时 寄存 器 或 参数 寄存 器 保存 到 自己 的 栈 帧 (调用 过 程 栈 帧 ) 中 ,同时 ,对 于 浮 点 数 参数 
和 超过 4 个 的 其 余 非 浮 点 数 参 数 也 要 保存 到 自己 的 栈 帧 中 ,然后 转 人 被 调用 过 程 。 如 
图 4. 14(b) 所 示 ,在 被 调用 过 程 中 ,需要 时 需 将 帧 指针 $fp 设置 为 $sp, 在 $fp 和 $sp 指向 
的 区 间 之 间 的 是 当前 栈 帧 。 如 果 当 前 过 程 是 非 叶 子 过 程 ( 叶 子 过 程 指 不 再 调用 其 他 过 程 的 
过 程 ), 则 返回 地 址 人 栈 保存 ; 若 在 过 程 中 用 到 保存 寄存 器 , 则 将 它们 入 栈 保存 ;然后 根据 过 
程 中 局 部 数组 或 结构 等 数据 定义 情况 ,对 局 部 变量 进行 人 栈 保 存 ; 若 $fp 有 被 破坏 的 情况 
《如许 套 调 用 ) 发 生 , 还 需 将 $ fp 保留 到 当前 栈 帧 中 ;如 果 是 递归 调用 , 则 所 有 输入 参数 都 需 
要 入 栈 保存 。 被 调用 过 程 执行 结束 返回 前 ,必须 释放 局 部 变量 占用 的 栈 区 ,并 恢复 保存 的 各 
个 寄存 器 ,最 后 可 根据 $fp 的 值 恢复 进入 被 调用 过 程 时 的 栈 指针 $sp。 这 样 ,在 回 到 调用 
程序 后 , 栈 中 状态 和 过 程 调 用 前 一 样 ,如 图 4. 14(c) 所 示 。 

4. MIPS 过 程 调用 协议 

在 程序 执行 过 程 中 ,每 调用 一 次 过 程 ,都 会 在 栈 中 生成 一 个 对 应 的 新 栈 帧 ,而 在 执行 返 
回 指令 前 对 应 的 栈 帧 在 栈 中 都 已 被 释放 。 栈 帧 的 生成 和 释放 可 以 有 多 种 方式 ,但 不 管 采 用 
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高 地 址 ; 高 地 址 & 高 地 址 
: : | ; 
临时 寄存 器 临时 寄存 器 临时 寄存 器 
$t0~S$t9 S$t0~St9 S$tO~$t9 
(必要 时 ) (必要 时 ) (必要 时 ) | 
调用 过 程 调用 过 程 调用 过 程 
参数 寄存 器 | 栈 帧 参数 寄存 器 | 栈 帧 参数 寄存 器 | 栈 帧 
$a0~$a4 $a0~$a4 S$a0~$a4 
(必要 时 ) (必要 时 ) (必要 时 ) 
其 余 输 入 参 其 余 输 入 参 其 余 输入 参 
数 (>4 个 时 ) 数 (>4 个 时 ) 数 (>4 个 时 ) 
$sp | 一 一 一 一 二 S$sp 
返回 地 址 $ra 
( 谋 套 时 ) 
$fp 一 一 | 
保存 寄存 器 
$s0~$s7 i 
(存在 时 ) | 神 红 
局 部 数组 
和 结构 等 
(存在 时 ) 
$= 1 
低地 址 | 低地 址 低地 址 
(a) 过 程 调用 前 (b) 过 程 调用 中 (0) 过 程 调用 后 


图 4. 14 过 程 调用 时 MIPS 中 的 栈 和 栈 帧 的 变化 


什么 方式 ,调用 过 程 和 被 调用 过 程 都 必须 遵循 一 定 的 步骤 。 

以 下 步骤 是 大 多 数 MIPS 系统 上 采用 的 过 程 调 用 协议 。 

1) 调用 过 程 P 在 过 程 调用 前 的 执行 步 又 

(1) 若 P 在 返回 后 还 要 用 到 $a0 一 $a3 和 $t0 一 $t9 中 某 些 寄存 器 , 则 需 将 这 些 寄存 
器 压 到 当前 栈 帧 。 

(2) 将 前 4 个 参数 送 到 $a0~ $ a3 ,其 他 参数 压 到 当前 栈 帧 。 

(3) 执行 jal 指令 ,该 指令 将 返回 地 址 保存 到 $ra($31) 中 ,并 将 控制 转移 到 被 调用 
程序 。 

2) 被 调用 程序 Q 中 的 执行 步 又 

由 三 段 组 成 : 开始 段 、 本 体 段 (过 程 体 ) 和 结尾 段 。 本 体 段 进行 具体 处 理 。 

开始 段 主要 进行 栈 帧 生成 、 寄 存 器 保存 和 局 部 变量 空间 申请 ,其 处 理 步骤 如 下 : 

(1) 通过 调整 栈 指针 $ sp 来 申请 栈 帧 ,即将 $ sp 的 值 减 去 栈 帧 大 小 。 

(2) 若 Q 中 用 到 $s0 一 $s7 中 的 某 些 寄存 器 , 则 需 将 这 些 寄存 器 压 人 当前 栈 帧 。 

(3) 若 Q 需 调 用 其 他 过 程 , 则 将 返回 地 址 寄存 器 $ ra 和 帧 指针 $fp 压 入 当前 栈 帧 。 

(4) 若 Q 中 的 局 部 变量 发 生 寄存 器 溢出 ( 即 寄存 器 不 够 分 配 ) , 则 局 部 变量 在 Q 的 栈 帧 
中 分 配 空间 。 若 有 像 数 组 和 结构 之 类 的 复杂 类 型 局 部 变量 , 则 在 当前 栈 帧 中 分 配 空间 。 

(5) 设置 帧 指针 $fp, 其 值 为 当前 栈 指针 $sp 加 栈 帧 大 小 。 

由 此 可 见 , 栈 帧 大 小 应 至 少 等 于 上 述 (2) 一 (4) 步 又 中 用 到 的 存储 单元 的 总 和 。 

结尾 段 主要 进行 寄存 器 恢复 、 栈 帧 释放 ,并 返回 到 调用 程序 。 其 处 理 步 又 如 下 : 

(1) 车 保存 了 $s0~~ $s7 中 某 些 寄存 器 值 , 则 将 这 些 值 从 当前 栈 帧 中 恢复 到 寄存 器 。 


(2) 若 保 存 了 返回 地 址 和 帧 指针 , 则 将 它们 分 别 恢复 到 寄存 器 $ ra 和 $fp 中 。 

(3) 调整 栈 指针 $ sp 以 释放 栈 帧 ,即将 $ sp 的 值 加 栈 帧 大 小 ,或 将 $fp 的 值 送 $ sp。 
(4) 用 返回 指令 jr $ ra 将 控制 权 返 还 给 调用 程序 。 

例 4.9 写 出 以 下 C 语 言 过 程 对 应 的 MIPS 汇编 表示 。 


void swap (int v[], int k) 


{ 
int temp; 
temp=v[k]; 
v[k]=v[kt+1]; 
v[k+1]=temp; 
} 


解 : swap 子 程序 不 是 主 程序 (main 函数 ), 因 此 是 一 个 被 调用 过 程 ,但 它 不 再 调用 其 他 
过 程 ,所 以 是 个 叶子 过 程 。 
按照 调用 协议 ,调用 swap 过 程 的 程序 已 将 参数 v 和 A 分 别 放 在 参数 寄存 器 $a0 和 
$al 中。 参数 v 是 一 个 数组 的 指针 。 假 定 在 swap 过 程 体 中 先 使 用 临时 寄存 器 $t0 一 $t9， 
不 够 时 再 使 用 保存 寄存 器 $s0~~ $s7, 局 部 变量 temp 分 配 在 寄存 器 $t0 中 。 如 果 临 时 寄 
存 器 够 用 的 话 , 则 不 需要 在 栈 帧 中 保存 调用 程序 的 现场 , 即 不 需 将 $s0 一 $s7 的 值 保存 在 


栈 帧 中 。 


按照 上 述 MIPS 过 程 调用 协议 ,开始 段 无 须 保 存 任何 寄存 器 的 值 , 也 无 须 进行 局 部 变量 
分 配 。 因 为 是 叶子 过 程 , 故 无 须 保存 返回 地 址 和 帧 指针 ,由 此 可 见 ,swap 对 应 的 栈 帧 为 空 ， 
结尾 段 直接 返回 即 可 。swap 的 汇编 表示 如 下 : 


swap: sll $t1, $al, 2 
add $t1, $t1, $a0 


1w $ to, 
1w $t2, 
Sw $t2, 
Sw St0， 
jr $31 


0($t1) 
4($t1) 
0($t1) 
4($t1) 


#k<<2, multiply k by 4 
#address of v[k] 

#1load v[k] 

#1load v[k+1] 

#store v[k+1] into v[k] 

# store old v[k] intov[k+1] 


#return to caller 


例 4.10 以 下 是 3 个 C 语 言 过 程 ,假定 过 程 set_array 第 一 个 被 调用 ,全 局 变量 i 分配 
到 寄存 器 $ s0 中 。 要 求 写 出 每 个 过 程 对 应 的 MIPS 汇编 表示 ,并 画 出 每 个 过 程 调用 前 、 后 


栈 中 的 状态 、 帧 指针 和 栈 指针 的 位 置 。 


EE 业 光 


void set_array (int num) 


{ 
int array[10]; 


for (i=0; i<10; i++) { 


array[i]=compare (num, i); 


} 
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int compare (int a, int b) 
{ 
if (sub l(a, b)> =0) 
return 1; 
else 
return 0; 


} 


int sub (int a, int b) 


return a-b; 


) 


解 : 程序 由 3 个 过 程 组 成 ,全 局 变量 有 一 个 i 假定 分 配 在 $ s0。 

为 了 尽量 减少 指令 条 数 , 并 减少 访问 内 存 次 数 。 在 每 个 过 程 的 过 程 体 中 总 是 先 使 用 临 
时 寄存 器 $t0 一 $t9, 临 时 寄存 器 不 够 或 者 某 个 值 在 调用 过 程 返回 后 还 需要 用 ,就 使 用 保存 
寄存 器 $ s0 一 $s7。 

MIPS 指令 系统 中 没有 寄存 器 传送 指令 ,为 了 提高 汇编 表示 的 可 读 性 ,引入 一 条 伪 
指令 move 来 表示 寄存 器 传送 ,汇编 器 将 其 转换 为 具有 相同 功能 的 机 器 指令 。 伪 指令 
“move $t0，$s0" 对 应 的 机 器 指令 为 “add $10,$ zero, $s0”。 

(1) 过 程 set_array: 人 口 参数 为 num, 没 有 返回 参数 ,有 一 个 局 部 数组 ,被 调用 过 程 为 
compare, 因 此 ,其 栈 帧 中 除了 保留 所 用 的 保存 寄存 器 外 ,必须 保留 返回 地 址 (是 否 保存 $fp 
要 看 具体 情况 ,如果 确保 后 面 都 不 用 到 $fp, 则 可 以 不 保存 ,但 为 了 保证 $fp 的 值 不 被 后 面 
的 过 程 覆盖 ,通常 情况 下 ,应 该 保存 $fp 的 值 ) ,并 给 局 部 数组 预 留 4X10=40B 的 空间 。 

从 过 程 体 来 看 ,从 compare 返回 后 还 需要 用 到 数组 基地 址 , 故 将 其 分 配给 $sl。 因 此 要 
用 到 的 保存 寄存 器 有 两 个 : $s0 和 $sl, 其 中 ,$s0 中 的 i 是 一 个 全 局 变量 ,所 以 ,只 有 $Sl 
需要 保存 在 栈 中 ,另外 加 上 返回 地 址 、 帧 指针 和 局 部 数组 ,其 栈 帧 空间 最 少 为 4X3 十 40= 
52B。 汇 编 表 示 如 下 : 


set-array: addi $sp, $sp, -52 #generate stack frame 
Sw Sra, 48 ($sp) #save $ ra on stack 
Sw $fp, 44 ($sp) # save $fp on stack 
Sw $sl, 40($ sp) #save $sl on stack 
addi $fp, $sp, 48 #set $fp 
move $sl, $sp #base address of array 
move $t0, $a0 #$t0=num 
move $s0, $zero #i=0 

for- loop: slti $t1, $s0, 10 #if i<10, $t1l=1; if i>=10, $t1=0 
beq $t1, $zero, exit1 #if $t1l=0, jump to exit1 
move $a0, $t0 #$a0=num 
move $al, $s0 #$al=i 
jal compare #call compare 


S11 $t1, $s0, 2 #iX4 


add 时 和 #$tl=array [i] 
sw $v0, 0($t1) # store result to array [i] 
addi $s0, $s0,1 # 立 = 立 + 1 
j for- loop 
exitl: 1w $ra, 48 ($sp) #restore $ra 
1w $fp, 44($sp) #restore $fp 
lw $sl, 40($ sp) #restore $sl 
addi $sp, $sp, 52 #free stack frame 
3 $ra #return to caller 


(2) 过 程 compare: 入 口 参数 为 a 和 6b, 有 一 个 返回 参数 ,没有 局 部 变量 ,被 调用 过 程 为 
sub。 所 以 其 栈 帧 中 除了 保留 所 用 的 保存 寄存 器 外 ,还 必须 保留 返回 地 址 和 旧 $fp 的 值 ; 因 
为 compare 过 程 的 参数 和 sub 过 程 的 入 口 参 数 一 样 ,所 以 在 调用 sub 前 没有 对 $a0 和 $al 
寄存 器 送 参数 。 


compare: addi $sp, $sp, -8 
Sw $ra, 4($sp) 
Sw $fp, 0($sp) # save $fp on stack 
addi $fp, $sp, 4 #set $fp 
jal sub 
Sit $t1, $v0, $zero #if $vo<0, $t1l=1; if $v0>=0, $t1=0 
beq $t1l, $zero, else #if $t1l=0, jump to else 
move $v0, $zero #return 0 
j exit2 
else: ori $v0O, $zer0, 1 #return 1 
exit2: lw $fp, 0($sp) 
1w $ra, 4($sp) 
addi $sp, $sp, 8 
3 $ra 


(3) 过 程 sub: 入 口 参数 为 a 和 0, 有 一 个 返回 参数 ,没有 局 部 变量 ,是 叶子 过 程 , 且 过 程 
体 中 没有 用 到 任何 保存 寄存 器 。 所 以 栈 帧 中 不 需要 保留 任何 信息 (如 果 保 留 返回 地 址 和 
$fp 也 不 会 错 ,但 这 样 做 没有 意义 ,而 且 还 需要 额外 指令 来 执行 保存 和 恢复 操作 ,增加 了 程 
序 的 执行 时 间 ) 。 

sub: sub $v0, $a0, $al 

jr $ra 

图 4.15 给 出 了 每 个 过 程 调用 前 、 后 栈 中 的 状态 变化 ,以 及 帧 指针 和 栈 指针 的 位 置 。 

需要 说 明 的 是 ,本 例 给 出 的 程序 是 示意 性 的 ,实际 上 该 程序 没有 任何 意义 。 因 为 过 程 
set_array 所 做 的 工作 就 是 把 比较 的 结果 写 到 数组 array 中 ,没有 任何 返回 值 ,而 数组 array 
是 局 部 变量 , 当 从 过 程 set_array 返回 后 ,该 过 程 的 栈 帧 全 部 被 释放 ,array 中 的 值 也 全 部 无 
效 , 所 以 程序 没有 做 任何 有 结果 的 工作 。 此 外 ,从 上 述 例子 可 以 看 出 ,如 果 全 部 利用 栈 指针 
$ sp 来 访问 栈 帧 是 可 以 实现 的 ,所 以 ,MIPS 中 的 30 号 寄存 器 $ 30 可 以 作为 帧 指针 $fp, 也 
可 以 在 不 想 利用 它 来 访问 栈 帧 时 把 它 作为 保留 寄存 器 $ s8 使 用 。 


人 
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$sp 
Sra Sra Sra 
各 一 sh sh sh 
Ssl Ssl Ssl 
array array array 
$sp Sfp 一 一 | Sra Sra 
Ssp——| yp Ssp stp 
(a) 初始 状态 (b) set_array 的 栈 帧 (c) compare 的 栈 帧 (d) sub 的 栈 帧 为 空 


图 4.15 例 4.10 中 栈 指针 、 帧 指针 的 变化 以 及 所 保存 的 信息 


4.5 本 章 小 


结 

本 章 以 MIPS 处 理 器 的 指令 系统 为 例 介 绍 了 一 个 指令 系统 必须 具备 的 基本 功能 ， 
并 就 指令 系统 设计 方面 的 有 关内 容 进行 了 介绍 ,包括 指令 格式 、 操 作 数 类 型 .数据 在 存 
储 器 中 的 存放 方式 、 寻 址 方式 、 操 作 类 型 .硬件 对 过 程 调用 的 支持 、CISC 和 RISC 技术 
的 比较 等 。 

采用 定 长 指令 字 和 定 长 操作 码 , 可 以 方便 指令 地 址 计算 、 取 指 和 译 码 操作 ;而 采用 变 长 
指令 字 和 变 长 操作 码 , 则 指令 各 字段 编码 紧凑 , 且 程 序 占 空 间 少 。 指 令 类 型 主要 包括 数据 传 
送 、 算 术 逻 辑 运算 、 字 符 串 处 理 .1/O 操作 ,程序 流 控制 和 系统 控制 等 ;指令 涉及 的 操作 数 类 
型 主要 有 无 符号 整数 、 带 符号 整数 、 浮 点 数 、 位 串 等 ;常用 指令 寻 址 方式 有 立即 、 直 接 、 间 接 、 
寄存 器 直接 .寄存 器 间接 .堆栈 和 偏 移 ( 包 括 相对 、 变 址 和 基 址 ) 寻 址 方式 。 

对 应 高 级 语言 程序 中 的 选择 结构 和 循环 结构 ,相应 的 机 器 代码 中 需要 有 条 件 转移 (分 
支 ) 指 令 ,它们 根据 不 同 的 标志 信息 来 改变 程序 的 执行 顺序 。 常 用 的 标志 有 CF( 进 位 / 借 位 
标志 ) ,ZF( 零 标志 )、OF( 洲 出 标志 ) ,SF( 符 号 标志 ) 等 。 

按 地 址 码 指定 方式 来 分 ,指令 系统 可 以 分 成 累加 器 型 、 栈 型 .通用 寄存 器 型 和 装 和 人 /存储 
型 4 种 不 同 风格 。 按 指令 系统 的 复杂 度 来 分 可 以 分 成 CISC( 复 杂 指 令 系 统计 算 机 ) 和 RISC 
(精简 指令 系统 计算 机 ) 两 种 不 同 风格 。CISC 的 主要 特点 是 : 变 长 指令 字 , 扩 展 操作 码 编 
码 ,指令 格式 多 ,指令 条 数 多 , 寻 址 方式 多 而 复杂 ,因而 指令 的 译 码 实 现 复杂 ,大 多 用 微 程序 
控制 器 实现 ;RISC 的 主要 特点 是 : 定 长 指令 字 , 定 长 操作 码 , 指 令 格 式 少 ,指令 系统 中 仅 含 
有 一 些 常用 指令 ,因而 指令 条 数 少 , 寻 址 方式 少 且 简单 ,指令 译 码 简单 ,可 用 硬 连 线 路 控制 器 
实现 ,设置 大 量 通用 寄存 器 ,可 大 大 减少 访 存 次 数 。 采 用 装 入 /存储 (load/store) 型 指令 设计 
风格 ,大 部 分 指令 的 执行 步骤 一 臻 .规整 ,适合 采用 流水 线 方式 执行 。 


习 题 
1. 给 出 以 下 概念 的 解释 说 明 。 
指令 指令 集体 系 结构 (ISA) 操作 码 地 址 码 
程序 计数 器 (PC) ”指令 指针 (IP) 程序 状态 字 (PSW) 程序 状态 字 寄 存 器 
标志 寄存 器 堆栈 栈 指针 (SP) 寻 址 方式 
有 效 地 址 立即 寻 址 直接 寻 址 间接 寻 址 
寄存 器 寻 址 寄存 器 间接 寻 址 变 址 寻 址 变 址 寄存 器 
相对 寻 址 基 址 寻 址 基 址 寄存 器 通用 寄存 器 (GPR) 
SIMD 指令 CISC RISC 伪 指 令 
叶子 过 程 帧 指针 fp 栈 帧 


2. 简单 回答 下 列 问题 。 

(1) 一 条 指令 中 应 该 显 式 或 隐 式 地 给 出 哪些 信息 ? 

(2) 什么 是 汇编 过 程 ? 什么 是 反 汇 编 过程 ? 这 两 个 操作 需要 用 到 什么 信息 ? 

(3) CPU 如 何 确定 指令 中 各 个 操作 数 的 类 型 ,长度 以 及 所 在 地 址 ? 

(4) 哪些 寻 址 方式 下 的 操作 数 在 寄存 器 中 ? 哪些 寻 址 方式 下 的 操作 数 在 存储 器 中 ? 

(5) 基 址 寻 址 方式 和 变 址 寻 址 方式 的 作用 各 是 什么 ? 有 何 相同 点 和 不 同 点 ? 

(6) 为 何 分 支 指令 的 转移 目标 地 址 通常 用 相对 寻 址 方式 ? 

(7) RISC 处 理 器 的 特点 有 哪些 ? 

(8) CPU 中 标志 寄存 器 的 功能 是 什么 ? 有 哪 几 种 基本 标志 ? 

(9) 转移 指令 和 转子 (调用 ) 指 令 的 区 别 是 什么 ?返回 指令 是 否 需 要 有 地 址 码 字 段 ? 

3. 假定 某 计算 机 中 有 一 条 转移 指令 ,采用 相对 寻 址 方式 , 共 占 两 个 字 节 ,第 一 字 节 是 操作 码 , 第 二 字 
节 是 相对 位 移 量 (用 补 码 表示 ),CPU 每 次 从 内 存 只 能 取 一 个 字 节 。 假 设 执行 到 某 转 移 指令 时 PC 的 内 容 
为 200, 执 行 该 转移 指令 后 要 求 转移 到 100 开始 的 一 段 程序 执行 , 则 该 转移 指令 第 二 字 节 的 内 容 应 该 是 
多 少 ? 

4. 假设 地 址 为 1200H 的 内 存单 元 中 的 内 容 为 12FCH, 地 址 为 12FCH 的 内 存单 元 的 内 容 为 38B8H， 
而 38B8H 单元 的 内 容 为 88F9H。 说 明 以 下 各 情况 下 操作 数 的 有 效 地 址 是 多 少 ? 

(1) 操作 数 采 用 变 址 寻 址 , 变 址 寄存 器 的 内 容 为 12 ,指令 中 给 出 的 形式 地 址 为 1200H。 

(2) 操作 数 采用 一 次 间接 寻 址 ,指令 中 给 出 的 地 址 码 为 1200H。 

(3) 操作 数 采 用 寄存 器 间接 寻 址 ,指令 中 给 出 的 寄存 器 编号 为 8,8 号 寄存 器 的 内 容 为 1200H。 

5. 通过 查 资料 了 解 Intel 80x86 微 处 理 器 和 MIPS 处 理 器 中 各 自 提供 了 哪些 加 法 指令 ,说 明 每 条 加 法 
指令 的 汇编 形式 ,指令 格式 和 功能 ,并 比较 加 \ 减 运算 指令 在 这 两 种 指令 系统 中 不 同 的 设计 方式 ,包括 不 同 
的 溢出 处 理 方式 。 

6. 某 计算 机 指令 系统 采用 定 长 指令 字 格 式 ,指令 字 长 16 位 ,每 个 操作 数 的 地 址 码 长 6 位 。 指 令 分 二 
地 址 ,一 地 址 和 零 地 址 3 类。 车 二 地 址 指令 有 k2 条 , 零 地 址 指令 有 k0 条 , 则 一 地 址 指令 最 多 有 多 少 条 ? 

7. 某 计 算 机 字 长 16 位 ,每 次 存储 器 访问 宽度 16 位 ,CPU 中 有 8 个 16 位 通用 寄存 器 。 现 为 该 机 设计 
指令 系统 ,要 求 指令 长 度 为 字 长 的 整数 倍 ,至 多 支持 64 种 不 同 操作 ,每 个 操作 数 都 支持 4 种 寻 址 方式 : 立 
即 (D .寄存 器 直接 (R) 寄存 器 间接 (S) 和 变 址 (X) ,存储 器 地 址 位 数 和 立即 数 均 为 16 位 ,任何 一 个 通用 寄 
存 器 都 可 作 变 址 寄存 器 ,支持 以 下 7 种 二 地 址 指令 格式 : RR 型 .RI 型 .RS 型 .RX 型 .XI 型 .SI 型 ,SS 型 。 
请 设计 该 指令 系统 的 7 种 指令 格式 ,给 出 每 种 格式 的 指令 长 度 、 各 字段 所 占 位 数 和 含义 ,并 说 明 每 种 格式 
指令 需要 几 次 存储 器 访问 。 


~ 
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8. 有 些 计算 机 提供 了 专门 的 指令 ,能 从 一 个 32 位 寄存 器 中 抽取 其 中 任意 一 个 位 串 置 于 另 一 个 寄存 器 
的 低位 有 效 位 上 ,并 在 高 位 补 0, 如 下 图 所 示 。MIPS 指令 系统 中 没有 这 样 的 指令 ,请 写 出 最 短 的 一 个 
MIPS 指令 序列 来 实现 这 个 功能 ,要 求 i 二 5, 7 一 22,， 操作 前 后 的 寄存 器 分 别 为 $s0 和 $s2。 


31 J i 0 


31 二 位 广 ? 位 计 1 位 
31 0 


| 0 3 000 
32-( 站 ) 位 广 :位 
9. 以 下 程序 段 是 某 个 过 程 对 应 的 指令 序列 。 人 口 参数 int a 和 int b 分 别 置 于 $a0 和 $al 中 ,返回 参 
数 是 该 过 程 的 结果 , 置 于 $ v0 中 。 要 求 为 以 下 MIPS 指令 序列 加 注释 ,并 简单 说 明 该 过 程 的 功能 。 























add $t0, $zero, $zero 
loop: beq $al, $zero, finish 
add $t0, $t0, $a0 
sub $al, $al, 1 
j loop 
finish: addi $t0, $t0, 100 
add $v0, $t0, $zero 


10. 下 列 指令 序列 用 来 对 两 个 数组 进行 处 理 ,并 产生 结果 存放 在 $v0 中 。 假 定 每 个 数组 有 2500 个 
字 , 其 数组 下 标 为 0 一 2499。 两 个 数组 的 基地 址 分 别 存放 在 $a0 和 $al 中 ,数组 长 度 分 别 存 放 在 $a2 和 
$ a3 中 。 要 求 为 以 下 MIPS 指令 序列 加 注释 ,并 简单 说 明 该 过 程 的 功能 。 假 定 该 指令 序列 运行 在 一 个 时 
钟 频率 为 2GHz 的 处 理 器 上 ,add、addi 和 sll 指令 的 CPI 为 1,lw 和 bne 指令 的 CPI 为 2, 则 最 坏 情况 下 运行 
所 需 时 间 是 多 少 秒 ? 
sll $a2, $a2, 2 
sll $a3, $a3, 2 


add $v0, $zero, $zero 

add $t0, $zero, $zero 
outer: add $t4, $a0, $tO 

1w $t4, 0($t4) 

add $t1, $zero, $zero 
inner: add $t3, $al, $t1 

1w $t3, 0($t3) 

bne $t3, $t4, skip 


addi S$v0，$v0，1 
skip: addi Stl，S$St1l，4 


bne $t1, $a3, inner 
addi $t0, $t0, 4 
bne $t0, $a2, outer 


11. 用 一 条 MIPS 指令 或 最 短 的 MIPS 指令 序列 实现 以 下 C 语言 语句 : b 一 25|a。 假 定编 译 器 将 a 和 hb 
分 别 分 配 到 $ to 和 $l 中 。 如 果 把 25 换 成 65536, 即 b 一 65536|a, 则 用 MIPS 指令 或 指令 序列 如 何 实现 ? 

12. 以 下 程序 段 是 某 个 过 程 对 应 的 MIPS 指令 序列 ,其 功能 为 复制 一 个 存储 块 数据 到 另 一 个 存储 块 
中 ,存储 块 中 每 个 数据 的 类 型 为 float, 源 数据 块 和 目的 数据 块 的 首 地 址 分 别 存放 在 $ a0 和 $al 中 ,复制 的 
数据 个 数 存放 在 $ v0 中 ,作为 返回 参数 返回 给 调用 过 程 。 假 定 在 复制 过 程 中 遇 到 0 就 停止 复制 ,最 后 一 个 
0 也 需要 复制 ,但 不 被 计数 。 已 知 程序 段 中 有 多 个 错误 ,请 找 出 它们 并 修改 之 。 


addi S$v0，$zerov 0 
loop: lw $v1l, 0($a0) 

Sw $v1i, 0($al) 

addi $a0, $a0, 4 

addi $al, $al, 4 

beq $vl, $zero, loop 


13. 说 明 beq 指令 的 含义 ,并 解释 为 什么 汇编 程序 在 对 下 列 汇编 源 程序 中 的 beq 指令 进行 汇编 时 会 遇 
到 问题 ,应 该 如 何 修改 该 程序 段 ? 


here: beq $s0, $s2, there 


there: addi $sl, $s0,4 


14. 以 下 C 语言 程序 段 中 有 两 个 函数 sum_array 和 compare ,假定 sum_array 函数 先 被 调用 ,全 局 变量 
sum 分 配 在 寄存 器 $ s0 中 。 要 求 按照 MIPS 过 程 调用 协议 写 出 每 个 函数 对 应 的 MIPS 汇编 语言 程序 ,并 面 
出 每 个 函数 调用 前 、 后 栈 中 的 状态 、 帧 指针 和 栈 指针 的 位 置 。 


int sum=0; 


int sum array (int array[], int num) 
{ 
int i; 
for (i=0; i<num; i++) 
if compare (num, i+1) sum+=array[i]; 
return sum; 


} 


int compare (int a, int b) 
{ 
if (a>b) 
return 1; 
else 
return 0; 


} 


15. 以 下 是 一 个 计算 阶乘 的 C 语言 递归 过 程 ,请 按照 MIPS 过 程 调用 协议 写 出 该 递归 过 程 对 应 的 
MIPS 汇编 语言 程序 ,要 求 目标 代码 尽量 短 (提示 : 乘法 运算 可 用 乘法 指令 “mul rd, rs, rt” 来 实现 ,功能 为 
rd<—(rs) X (rt)), 


int fact (int n) 
{ 
if (n<1) 
return (1); 
else 


return (nx fact(n-1)); 





第 章 
中 央 处 理 器 


计算 机 所 有 功能 通过 执行 程序 完成 ,程序 由 指令 序列 构成 。 计 算 机 采用 “存储 程序 ”的 
工作 方式 , 即 计算 机 必须 能 够 自动 地 从 主 存 取 出 一 条 条 指令 执行 ,而 专门 用 来 执行 指令 的 部 
件 就 是 中 央 处 理 器 (Central Processing Unit,CPU) 。 

在 CPU 中 控制 指令 执行 的 部 件 是 控制 器 ,控制 器 可 采用 硬 连 线路 方式 实现 ,也 可 采用 
微 程序 设计 方式 实现 ,也 有 一 些 CPU 采用 硬 连 线路 和 微 程序 控制 相 结合 的 方式 实现 。 

本 章 主要 介绍 CPU 的 基本 功能 和 基本 组 成 ,以 及 单 周 期 处 理 器 和 多 周期 处 理 器 的 工 
作 原 理 和 设计 方法 。 有 关 流 水 线 处 理 器 的 基本 设计 原理 在 第 6 章 介 绍 。 


5.1 CPU 概述 


S.1.1 指令 执行 过 程 


指令 按 顺序 存放 在 内 存 连 续 单 元 中 ,指令 地 址 由 PC 给 出 。CPU 取出 并 执行 一 条 指令 
的 时 间 称 为 指令 周期 ,不 同 指令 的 指令 周期 可 能 不 同 。 

通常 ,CPU 执行 一 条 指令 的 大 致 过 程 如 下 。 

(1) 取 指 令 并 计算 下 一 条 指令 地 址 。 从 PC 指出 的 内 存单 元 中 取出 指令 送 到 指令 寄存 
器 (IR) ,同时 计算 下 一 条 指令 的 地 址 并 将 其 送 PC。 顺 序 执行 时 ,只 要 将 PC 加 上 当前 指令 
长 度 即 可 得 到 下 一 条 指令 地 址 ; 遇 到 转移 指令 等 改变 执行 顺序 的 指令 时 , 则 需要 根据 指令 操 
作 码 和 寻 址 方式 决定 下 一 条 指令 地 址 的 计算 方式 。 

(2) 对 指令 操作 码 译 码 。 不 同 指令 的 功能 不 同 , 即 指令 涉及 的 操作 过 程 不 同 , 因 而 需要 
不 同 的 操作 控制 信号 。 例 如 ,MIPS 的 R- 型 add 指令 要 求 从 寄存 器 取 数 ,做 加 运算 ,结果 送 
寄存 器 ;而 MIPS 的 工 型 ori 指令 则 要 求 从 寄存 器 取 数 ,对 立即 数 进行 0 扩展 ,做 或 运算 , 结 
果 送 寄存 器 。 因 而 ,应 该 根据 指令 的 不 同 操作 码 生 成 不 同 的 控制 信号 。 

(3) 计算 源 操作 数 地 址 并 取 源 操作 数 。 根 据 寻 址 方式 确定 源 操作 数 地 址 计算 方式 , 若 
源 操作 数 是 存储 器 数据 , 则 需要 一 次 或 多 次 访 存 , 例 如 ,对 于 间接 寻 址 或 两 个 操作 数 都 在 存 
储 器 的 指令 ,需要 多 次 访 存 : 若 源 操作 数 是 寄存 器 数据 , 则 直接 从 寄存 器 取 数 。 

(4) 数据 操作 。 在 ALU 或 加 法 器 等 运算 部 件 中 对 取出 的 操作 数 进 行 运算 。 

(5) 目的 操作 数 地 址 计算 并 存 结果 。 根 据 寻 址 方式 确定 目的 操作 数 地 址 计算 方式 , 若 
是 存储 器 数据 , 则 需要 一 次 或 多 次 访 存 (间接 寻 址 时 ) ;若是 寄存 器 数据 , 则 在 进行 数据 操作 


时 直接 存 结果 到 寄存 器 。 

对 于 上 述 过 程 的 第 (1) 步 和 第 (2) 步 ,所 有 指令 的 操作 都 一 样 ;而 对 于 第 (3) 一 (5) 步 ,不 
同 指令 的 操作 可 能 不 同 ,它们 完全 由 第 (2) 步 译 码 得 到 的 控制 信号 控制 , 即 每 条 指令 的 功能 
由 第 (2) 步 译 码 得 到 的 控制 信号 决定 。 

对 上 述 指令 执行 过 程 分 析 可 知 ,每 条 指令 的 功能 总 是 由 以 下 4 种 基本 操作 来 实现 。 

(1) 读 取 某 存储 单元 内 容 ( 可 能 是 指令 或 操作 数 或 操作 数 地 址 ) ,并 将 其 装 人 某 个 寄 
存 器 。 

(2) 把 一 个 数据 从 某 个 寄存 器 存 人 给 定 的 存储 单元 中 。 

(3) 把 一 个 数据 从 某 个 寄存 器 送 到 另 一 个 寄存 器 或 者 ALU 输入 端 。 

(4) 进行 某 种 算术 运算 或 逻辑 运算 ,将 结果 送 入 某 个 寄存 器 。 

上 述 这 些 基本 操作 可 以 用 形式 化 的 方式 来 描述 ,所 用 的 描述 语言 称 为 寄存 器 传送 语言 
(Register Transfer Language,RTL) 。 本 章 所 用 的 RTL 规定 如 下 。 

(1) 用 R[r] 表 示 寄 存 器 堆 中 寄存 器 r 的 内 容 。 

(2) 用 MLaddr] 表 示 读 取 存 储 单元 addr 的 内 容 。 

(3) 传送 方向 用 一 表示 ,传送 源 在 右 ,传送 目的 在 左 。 

(4) 程序 计数 器 PC 直接 用 PC 表示 其 内 容 。 

由 此 可 知 , 若 要 表示 寄存 器 间接 寻 址 操作 ( 即 读 取 寄 存 器 r 的 内 容 所 指 的 存储 单元 的 内 
容 ) , 则 用 MLR[rj] 表 示 ; 若 要 表示 PC 所 指 内 存单 元 的 内 容 , 则 用 MLPC] 表 示 。 


5.1.2 CPU 的 基本 功能 和 基本 组 成 


CPU 的 基本 职能 是 周而复始 地 执行 指令 ,但 是 ,在 执行 指令 过 程 中 可 能 会 遇 到 一 些 异 
常情 况 和 外 部 中 断 。 例 如 ,对 指令 操作 码 译 码 时 ,可 能 会 发 现 有 不 存在 的 “非法 操作 码 ”; 在 
访问 指令 或 数据 时 可 能 发 现 “ 缺 页 ”( 即 要 访问 的 信息 不 在 主 存 ) ;外 部 设备 可 能 会 请 求 中 断 
CPU 的 执行 等 。 因 此 ,CPU 除了 执行 指令 外 ,还 要 能 够 发 现 和 处 理 “ 异 常 ” 情 况 和 “中 断 ” 

随 着 超大 规模 集成 电路 技术 的 发 展 ,更 多 的 功能 逻辑 被 集成 到 CPU 芯片 中 ,包括 
cache、MMU 、 浮 点 运算 逻辑 、 异 常 和 中 断 处 理 逻 辑 等 ,因而 CPU 的 内 部 组 成 越 来 越 复杂 ,其 
至 在 一 个 CPU 芯片 中 集成 了 多 个 处 理 器 核 。 但是, 不管 CPU 多 复杂 , 它 都 可 看 成 由 数据 
通路 (datapath) 和 控制 部 件 (control unit) 两 大 部 分 组 成 。 

通常 将 指令 执行 过 程 中 数据 所 经 过 的 路 径 ,包括 路 径 上 的 部 件 称 为 数据 通路 。ALU、 
通用 寄存 器 .状态 寄存 器 .cache`\MMU \ 浮 点 运算 逻辑 .异常 和 中 断 处 理 逻 辑 等 都 是 指令 执 
行 过 程 中 数据 流 经 的 部 件 ,都 属于 数据 通路 的 一 部 分 。 通 常 把 数据 通路 中 专门 进行 数据 运 
算 的 部 件 称 为 执行 部 件 (execution unit) 或 功能 部 件 (function unit) 。 数 据 通路 由 控制 部 件 
进行 控制 。 控 制 部 件 根 据 每 条 指令 功能 的 不 同 生 成 对 数据 通路 的 控制 信号 ,并 正确 控制 指 
令 的 执行 流程 。 

为 了 在 教学 上 遵循 由 易 到 难 的 原则 ,我 们 首先 从 CPU 最 基本 的 组 成 开始 了 解 。CPU 
的 基本 功能 决定 了 CPU 的 基本 组 成 。 图 5. 1 是 CPU 的 基本 组 成 原理 图 。 

图 5.1 中 的 数据 通路 非常 简单 ,只 给 出 了 最 基本 的 部 件 , 如 ALU、 通 用 寄存 器 和 状态 寄 
存 器 等 。 其 余 都 是 控制 逻辑 或 与 其 密切 相关 的 逻辑 ,包括 以 下 几 个 部 分 。 
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图 5.1 CPU 基本 组 成 原理 图 


(1) 程序 计数 器 (PC)。 又 称 指令 计数 器 或 指令 指针 (IP) ,用 来 存放 指令 的 地 址 。 指 令 
地 址 的 形成 有 两 种 可 能 : 顺序 执行 时 ,PC 十 “1” 形 成 下 条 指令 地 址 。 有 的 机 器 PC 本 身 具 
有 十 “1” 计 数 功 能 ,这 里 的 “1” 指 一 条 指令 的 长 度 ;有 的 机 器 借用 运算 部 件 完 成 。@ 需 要 改变 
程序 执行 顺序 时 ,通常 由 转移 类 指令 形成 转移 地 址 送 到 PC, 作 为 下 一 条 指令 地 址 。 每 个 程 
序 开始 执行 之 前 ,总 是 把 程序 中 第 一 条 指令 的 地 址 送 到 PC 中 。 

(2) 指令 寄存 器 (IR)。 用 以 存放 现行 指令 。 上 文 提 到 ,每 条 指令 总 是 先 从 存储 器 取出 
后 才能 在 CPU 中 执行 ,指令 取出 后 存放 在 指令 寄存 器 中 ,以 便 送 指令 译 码 器 进行 译 码 。 

(3) 指令 译 码 器 。 对 指令 寄存 器 中 的 操作 码 部 分 进行 分 析 解 释 , 产 生 相 应 的 译 码 信号 
提供 给 操作 控制 信号 形成 部 件 。 

(4) 脉冲 源 及 启 停 控制 线路 。 脉 冲 源 产 生 一 定 频 率 的 脉冲 信号 作为 整个 机 器 的 时 钟 肪 
冲 , 是 CPU 时 序 的 基准 信号 。 启 停 线路 在 需要 时 能 保证 可 靠 地 开放 或 封锁 时 钟 脉冲 ,控制 
时 序 信 号 的 发 生 与 停止 ,并 实现 对 机 器 的 启动 与 停机 。 

(5) 时 序 信号 产生 部 件 。 以 时 钟 脉 冲 为 基础 ,产生 不 同 指令 对 应 的 周期 节拍、 工作 脉 
冲 等 时 序 信号 ,实现 机 器 指令 执行 过 程 的 时 序 控制 。 

(6) 操作 控制 信号 形成 部 件 。 综 合 时序 信 和 号、 指令 译 码 信号 和 执行 部 件 反 馈 的 状态 标 
志 等 ,形成 不 同 指令 所 需要 的 操作 控制 信号 序列 。 

(7) 总 线 控制 逻辑 。 实 现 对 总 线 传 输 的 控制 ,包括 数据 、 地 址 信息 的 缓冲 与 三 态 控制 。 

(8) 中 断 机 构 。 实 现 对 异常 情况 和 某 些 外 部 中 断 请 求 的 处 理 。 


5.1.3 数据 通路 的 基本 结构 


指令 执行 所 用 到 的 元 件 有 两 类 : 组 合 逻 辑 元 件 ( 也 称 操作 元 件 ) 和 存储 元 件 (也 称 状态 
元 件 ) 。 连 接 这 些 元 件 的 方式 有 两 种 : 总 线 方式 和 分 散 连 接 方式 。 数 据 通路 就 是 由 操作 元 
件 和 存储 元 件 通过 总 线 或 分 散 方式 连接 而 成 的 进行 数据 存储 、` 处 理 和 传送 的 路 径 。 


1. 组 合 逻 辑 元 件 

组 合 逻 辑 元 件 的 输出 只 取决 于 当前 的 输入 。 组 合 电路 的 定时 不 受 时 钟 信号 的 控制 ,所 
有 输入 信号 到 达 后 ,经 过 一 定 的 逻辑 门 延 迟 ,输出 端的 值 被 改变 ,并 一 直 保 持 其 值 不 变 , 直 到 
输入 信号 改变 。 数 据 通路 中 常用 的 组 合 逻 辑 元 件 有 多 路 选择 器 (MUX) .加 法 器 (Adder)、 
算术 逻辑 部 件 (ALU) . 译 码 器 (Decoder) 等 ,其 符号 表示 如 图 5. 2 所 示 。 


Select 


CarryIn OP; 
网 A A ---— out0 
32 32 ---— Outl 
32 | 所 Sum Result | |--— out?2 

ES Y 32 32 3 

B 2 B Carry B Zero : 
32 32 32 --—— OUut7 


(a) 多 路 选择 器 (b) 加 法 器 (0) 算术 逻辑 部 件 (d) 译 码 器 
图 5.2 数据 通路 中 的 常用 组 合 逻 辑 元 件 
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图 中 虚线 表示 控制 信号 ,多 路 选择 器 需要 控制 信号 select 确定 选择 哪个 输入 被 输出 ;加 
法 器 不 需要 控制 信号 控制 ,因为 它 的 操作 是 确定 的 ;ALU 需要 有 操作 控制 信号 op, 由 它 确 
定 ALU 进行 哪 种 操作 ; 译 码 器 通过 对 指令 操作 码 进行 译 码 , 输 出 译 码 后 得 到 的 控制 信号 
out0 .out1、…, 译 码 器 无 须 控制 信号 进行 控制 。 

2. 状态 元 件 

状态 元 件 具有 存储 功能 ,输入 状态 在 时 钟 控制 下 被 写 到 电路 中 ,并 保持 电路 的 输出 值 不 
变 , 直 到 下 一 个 时 钟 到 达 。 输 入 端 状态 由 时 钟 决定 何 时 被 写 人 ,输出 端 状 态 随 时 可 以 读 出 。 
最 简单 的 状态 单元 是 DD 触发 器 ,有 时 钟 输入 Clk ,状态 输入 端 D 和 状态 输出 端 Q。 图 5. 3 是 
D 触发 器 的 定时 示意 图 。 
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图 5.3 DD 触发 器 定时 示意 图 


图 5.3 中 的 DD 触发 器 采用 时 钟 下 降 沿 触发 ,要 使 输出 状态 能 正确 地 随 着 输入 状态 改 
变 , 必 须 满足 以 下 时 间 约 东 

(1) 在 时 钟 下 降 沿 到 来 前 的 一 定时 间 内 ,输入 端 D 的 状态 必须 稳定 有 效 , 这 段 时 间 被 称 
为 建立 时 间 (setup time) 。 

(2) 在 时 钟 下 降 沿 到 来 后 的 一 定时 间 内 ,输入 端 D 的 状态 必须 继续 保持 稳定 不 变 , 这 段 
时 间 被 称 为 保持 时 间 (hold time) 。 

在 上 述 两 个 约束 条 件 满足 的 情况 下 ,经 过 时 钟 下 降 沿 到 来 后 的 一 段 延迟 时 间 (“Clock- 
to-Q”time) ,输出 端 Q 的 状态 改变 为 输入 端 D 的 状态 ,并 一 直 保 持 不 变 , 直到 下 一 个 时 钟 
到 来 。 

数据 通路 中 的 寄存 器 是 一 种 典型 的 状态 存储 元 件 ,由 n 个 D 触发 器 可 构成 一 个 位 寄 
存 器 。 根 据 功 能 和 实现 方式 的 不 同 , 有 各 种 不 同类 型 的 寄存 器 。 例 如 : @ 带 “ 写 使 能 ?输入 
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信号 的 触发 器 构成 的 寄存 器 ,通常 称 这 类 触发 器 为 锁 存 器 (latch) ,所 组 成 的 寄存 器 称 为 暂 
存 器 ,通常 用 来 实现 指令 寄存 器 IR、 通 用 寄存 器 组 (general register set)? 等 。@ 输出 端 带 
一 个 三 态 门 的 寄存 器 ,通常 用 于 与 总 线 相连 的 寄存 器 ,可 通过 三 态 门 来 控制 信息 是 否 打 到 总 
线 上 。@ 带 复位 ( 即 清 零 ) 功 能 的 寄存 器 。@ 带 计数 ( 自 增 ) 功 能 的 寄存 器 。@ 带 移 位 功能 
的 寄存 器 。 

这 些 不 同类 型 的 寄存 器 都 在 时 钟 信号 和 相应 控制 信号 (如 “ 写 使 能 ”“ 三 态 门 开 ”、“ 清 
零 ”“ 自 增 ”“ 左 移 / 右 移 ”) 的 控制 下 完成 信息 存储 功能 。 当 然 ,也 可 以 将 上 述 功 能 组 合 起 来 
构成 寄存 器 。 

图 5.4 是 数据 通路 中 的 暂 存 寄存 器 和 通用 寄存 器 组 的 外 部 结构 示意 图 。 
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(a) 暂 存 寄存 器 (b) 通用 寄存 器 组 
图 5.4 寄存 器 和 寄存 器 组 的 外 部 结构 


(1) 暂 存 寄存 器 

有 一 个 写 使 能 (Write Enable) 信 号 WE, 当 WE 一 0 时 ,时 钟 信号 (Clk) 边 沿 到 来 不 会 改 
变 输出 值 ; 当 WE 一 1 时 ,时 钟 边沿 到 来 后 ,经 过 Clk-to-Q 时 间 的 延迟 ,输出 端 开始 变 为 输入 
端的 值 。 若 数据 通路 中 某 个 寄存 器 在 每 个 时 钟 到 来 时 都 需要 写 人 信息 , 则 该 寄存 器 无 须 
WE 信号 。 

(2) 通用 寄存 器 组 

32 个 暂 存 寄存 器 可 以 构成 一 个 如 图 5. 4(b) 所 示 的 通用 寄存 器 组 。 它 有 两 个 读 口 ， 
busA 和 busB, 分 别 由 RA 和 RB 给 出 地 址 。 读 操作 属于 组 合 逻 辑 操作 ,无需 时 钟 控制 。 即 
当地 址 RA 或 RB 有效 后 ,经 过 一 个 “ 取 数 时 间 ” 的 延迟 ,在 busA 和 busB 上 的 信息 有 效 。 它 
还 有 一 个 写 口 : busW 上 的 信息 写 入 的 地 址 由 RW 指定 。 写 操作 属于 时 序 逻 辑 操作 ,需要 
时 钟 信号 的 控制 。 在 WE 为 1 的 情况 下 ,时 钟 边沿 到 来 后 经 过 Clk-to-Q 时 间 延 迟 ,busW 传 
来 的 值 开始 被 写 人 RW 指定 的 寄存 器 中 。 

3. 数据 通路 与 时 序 控制 

指令 执行 过 程 中 的 每 个 操作 步骤 都 有 先后 顺序 ,为 了 使 计算 机 能 正确 执行 指令 ,CPU 
必须 按 正 确 的 时 序 产生 操作 控制 信号 。 由 于 不 同 指令 对 应 的 操作 序列 长 短 不 一 ,序列 中 各 
操作 执行 时 间 也 不 相同 ,因此 ,需要 考虑 用 怎样 的 时 序 方式 来 控制 。 

1) 早期 计算 机 的 三 级 时 序 系统 

早期 计算 机 通常 采用 机 器 周期 、 节 拍 和 脉冲 三 级 时 序 对 数据 通路 操作 进行 定时 控制 。 
一 个 指令 周期 可 分 为 取 指令 、 读 操作 数 、 执 行 并 写 结果 等 多 个 基本 工作 周期 , 称 为 机 器 周期 。 


@ 通用 寄存 器 组 (General Register Set) : 简称 GRS, 有 的 英文 原版 教材 用 Register Files 表示 ,翻译 为 寄存 器 堆 。 


天 央 处 理 器 


有 取 指令 、 存 储 器 读 、 存 储 器 写 、 中 断 响应 等 类 型 的 机 器 周期 。 

每 个 机 器 周期 长 短 可 能 不 同 ,例如 ,存储 器 读 或 写 周 期 比 CPU 中 的 操作 时 间 长 得 多 。 
所 以 ,机 器 周期 的 宽度 通常 以 主 存 工作 周期 为 基础 来 确定 。 

一 个 机 器 周期 内 要 进行 若干 步 动作 。 例 如 ,存储 器 读 周 期 有 送 地 址 、 发 读 命令 、 检 测 数 
据 有 无 准备 好 、 取 数据 等 。 因 此 ,有 必要 将 一 个 机 器 周期 再 划分 成 若干 节拍 ,每 个 动作 在 一 
个 节拍 内 完成 。 

为 了 产生 操作 控制 信号 并 使 某 些 操作 能 在 一 拍 时 间 内 配合 工作 , 常 在 一 个 节拍 内 再 设 
置 一 个 或 多 个 工作 脉冲 。 例 如 ,要 在 一 个 节拍 内 使 某 个 寄存 器 的 内 容 送 到 另 一 个 寄存 器 中 ， 
就 需要 设置 先后 两 个 工作 脉冲 ,以 产生 打开 数据 通路 脉冲 和 接收 脉 溃 。 图 5. 5 是 机 器 周期 、 
节拍 和 脉冲 三 级 时 序 系统 示意 图 。 图 中 假定 每 个 机 器 周期 有 4 个 节拍 ,每 个 节拍 有 4 个 
脉冲 。 
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图 5.5 机 器 周期 ,节拍 .脉冲 三 级 时 序 系 统 


2) 现代 计算 机 的 时 钟 信和 号 

现代 计算 机 中 已 不 再 采用 上 述 三 级 时 序 系统 ,机 器 周期 的 概念 已 逐渐 消失 。 整 个 数据 
通路 中 的 定时 信号 就 是 时 钟 ,一 个 时 钟 周期 就 是 一 个 节拍 。 

如 图 5.6 所 示 ,数据 通路 可 看 成 由 组 合 逻 辑 ( 操 作 ) 元 件 和 状态 (存储 ) 单 元 交替 组 合 而 
成 , 即 数据 通路 的 基本 结构 为 “*… 一 状态 单元 一 操作 元 件 ( 组 合 电 路 ) 一 状态 单元 一 …”。 
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图 5.6 数据 通路 和 时 钟 周 期 


只 有 状态 单元 能 存储 信息 ,所 有 操作 元 件 都 须 从 状态 单元 接收 输入 ,并 将 输出 写 和 人 状态 
单元 中 。 所 有 状态 单元 在 同一 时 钟 控制 下 写 人 人 信息。 假定 采用 下 降 沿 ( 负 跳 变 ) 触 发 方式 ， 
则 所 有 状态 单元 在 时 钟 下 降 沿 到 来 时 开始 写 入 信息 ,经 过 触发 器 的 锁 存 延迟 (Latch Prop， 
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即 Clk-to-Q 时 间 ) 后 输出 开始 有 效 。 假 定 每 个 时 钟 的 下 降 沿 是 一 个 时 钟 周 期 的 开始 时 刻 ， 
则 一 个 时 钟 周 期 内 整个 处 理 过 程 如 下 : 经 过 Clk-to-Q 时 间 ,前 一 个 时 钟 周 期 内 生成 的 信和 号 
被 写 人 状态 单元 ,并 输出 到 随后 的 操作 元 件 进行 处 理 , 经 过 若干 级 门 延迟 ,得 到 的 处 理 结果 
被 送 到 下 一 级 状态 单元 的 输入 端 ,然后 必须 稳定 一 段 时 间 (Setup Time) 才 能 开始 下 个 时 钟 
周期 ,并 在 时 钟 信 号 到 达 后 还 要 保持 一 段 时 间 (Hold Time) 。 

假定 所 有 各 级 操作 元 件 中 最 长 操作 延迟 时 间 为 Longest Delay, 考 虑 时 钟 偏 移 (Clock 
Skew)0 ,根据 上 述 分 析 可 知 ,数据 通 路 的 时 钟 周期 (Cycle Time) 应 为 Cycle Time= Latch 
Prop 十 Longest Delay 十 Setup Time 十 Clock Skew。 假 定 各 级 操作 元 件 中 最 得 操 作 延 迟 时 
间 为 Shortest Delay, 为 了 数据 通路 正常 工作 ,应 该 满足 以 下 时 间 约 东 : Latch Prop 十 
Shortest Delay> Hold Time。 

4. 单 总 线 数据 通路 

1946 年 汉 。 诺 依 曼 和 他 的 同事 在 普林斯顿 高 级 研究 院 开 始 设计 存储 程序 计算 机 , 它 被 
称 为 IAS( 普 林 斯 顿 高 级 研究 院 Institute for Advanced Study 的 简称 ) 计 算 机 ,是 后 来 通用 
计算 机 的 原型 。IAS 所 使 用 的 数据 通路 中 ,存储 部 件 除了 主 存 M 外 ,有 累加 器 AC、 乘 商 寄 
存 器 MQ 指令 寄存 器 IR ,程序 计数 器 PC。 它 是 一 种 累加 器 型 指令 系统 数据 通路 ,也 是 最 
简单 的 数据 通路 结构 ,部 件 之 间 采 用 分 散 连接 方式 。 

CPU 内 部 的 部 件 之 间 也 可 通过 总 线 方式 连接 。 如 图 5.7 所 示 , 将 ALU 及 所 有 寄存 器 
通过 一 条 内 部 的 公共 总 线 连 接 起 来 ,构成 单 总 线 结构 的 数据 通路 。 因 为 此 总 线 在 CPU 内 
部 ,所 以 称 为 CPU 内 部 总 线 ,不 要 把 它 与 连接 CPU ,存储 器 和 IVO 设备 的 外 部 系统 总 线 ( 如 
图 中 的 存储 器 总 线 ) 相 混淆 。 
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图 5.7 单 总 线 数据 通路 


图 5.7 中 ,寄存 器 RO 一 R(z 一 1) 是 程序 员 可 见 的 通用 寄存 器 ,而 寄存 器 Y 和 Z 对 程序 
员 而 言 是 透明 的 , 仅 被 CPU 用 作 某 些 指令 执行 期 间 的 临时 存储 单元 。 指 令 寄 存 器 IR 和 指 
令 译 码 器 是 CPU 内 部 控制 单元 的 主要 部 件 。 存 储 器 总 线 经 由 存储 器 数据 寄存 器 MDR 和 


@ 时钟 偏 移 (Clock Skew) : 由 于 器 件 工艺 和 走 线 延迟 等 原因 造成 的 同步 系统 中 时 钟 信号 的 偏差 ,这 种 时 间 偏 差 使 
得 时 钟 信 号 不 能 同时 到 达 不 同 的 状态 元 件 而 导致 同步 定时 错误 ,所 以 需要 在 时 钟 周期 中 增加 时 钟 偏 移 时 间 来 避免 这 种 
错误 。 也 有 人 把 clock skew 翻译 为 时 钟 扭 余 或 时 钟 牌 斜 。 
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存储 器 地 址 寄存 器 MAR 连 到 CPU。 和 


在 图 5.7 的 单 总 线 CPU 结构 中 ,完成 指令 执行 的 4 种 基本 操作 (参见 5. 1. 1 节 ) 过 程 说 
明 如 下 。 

1) 在 通用 寄存 器 之 间 传送 数据 

总 线 是 一 组 共享 的 传输 信号 线 , 它 不 能 存储 信息 , 某 一 时 刻 也 只 能 有 一 个 部 件 能 把 信息 
送 到 总 线 上 。 在 图 5. 7 的 单 总 线 CPU 结构 中 , 连 到 内 部 总 线 上 的 各 个 部 件 之 间 通 过 内 总 线 
传送 数据 。 源 寄存 器 将 信息 送 到 总 线 上 ,经 过 总 线 上 一 定 的 延迟 ,信息 被 传送 到 目的 寄存 器 
并 被 存储 在 目的 寄存 器 中 。 通 常 在 寄存 器 和 总 线 之 间 有 两 个 控制 信号 : Ri, 和 Ro， 
Ri 一 1 时 ,控制 将 总 线 上 的 信息 存 到 寄存 器 R 中 ; Ro 二 1 时 ,控制 寄存 器 R 将 信息 送 到 总 
线 。 图 5.8 给 出 了 寄存 器 中 的 一 位 触发 器 和 内 总 线 相连 时 的 控制 电路 和 控制 信号 ,对 于 一 
个 由 个 触发 器 构成 的 n 位 寄存 器 ,其 原理 是 一 样 的。 在 图 5. 8 中 ,D 触发 器 的 数据 输入 端 
连 到 一 个 二 路 多 选 器 , 当 控 制 信号 R, 二 1 时 ,选择 总 线 上 的 信息 输入 到 D 触发 器 的 输入 端 ， 
当时 钟 信号 的 触发 沿 到 达 时 ,被 装 入 到 触发 器 中 ; 当 R;, 二 0 时 ,触发 器 的 值 不 变 。D 触发 器 
的 输出 端 通过 一 个 三 态 门 与 总 线 相连 , 当 控制 信号 Ru 二 1 时 ,三 态 门 被 打开 ,触发 器 的 输 
出 被 送 到 总 线 上 ; 当 R= 二 0 时 , 则 三 态 门 的 输出 端 呈 高 阻 态 ,触发 器 与 总 线 断 开 。 

在 图 5.7 所 示 的 数据 通路 中 , 若 要 将 寄存 器 RO 的 内 容 传 送 到 寄存 器 Y, 则 对 应 的 控制 
信和 号 为 "ROYia?”。 
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5.8 一 位 寄存 器 的 输入 输出 控制 


这 里 必须 说 明 ,在 很 多 计算 机 的 CPU 内 部 结构 中 ,寄存 器 堆 之 间 没 有 直接 的 通路 , 因 
此 寄存 器 之 间 的 数据 传送 需 经 过 ALU 来 实现 ,此 时 ,控制 操作 要 相应 复杂 一 些 。 

2) 完成 算术 .逻辑 运算 

ALU 是 一 个 没有 记忆 功能 的 组 合 逻 辑 电 路 , 若 要 进行 正确 的 运算 ,必须 将 两 个 操作 数 
都 送 到 ALU 的 输入 端 。 在 图 5.7 所 示 的 数据 通路 中 ,Y 寄存 器 存放 其 中 一 个 操作 数 , 另 一 
个 操作 数 被 置 于 总 线 上 。 运 算 结 果 被 临时 存放 在 寄存 器 Z 中 。 因 此 ,要 实现 操作 : R[R3] 一 
RLR1] 十 RLR2], 即 寄存 器 Rl 的 内 容 与 R2 的 内 容 相 加 ,结果 送 寄存 器 R3, 则 控制 信号 
如 下 : 

C1y Ris YE 

(2 R2onsadd CZ) 

CD ZR 

以 上 3 步 不 能 同时 执行 ,因为 任何 时 刻 只 能 有 一 个 寄存 器 的 输出 送 到 总 线 上 。 因 此 ,该 
操作 需要 3 个 时 钟 周期 (节拍 ) 。 
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在 上 述 第 (2) 步 加 法 操作 中 ,信号 R2。 被 置 1 后 ,R2 的 输出 三 态 门 被 接 通 , 数 据 沿 总 线 
传输 到 ALU 的 输入 端 ,并 在 add 信号 的 控制 下 ,在 ALU 中 做 加 法 运算 ,最 后 在 Z, 的 控制 
下 ,将 结果 写 人 Z。 为 了 能 正确 实现 这 一 步 操作 ,R2。 add 和 Zi 信号 必须 保持 一 定 的 有 效 
时 间 。 

这 里 需要 说 明 的 是 ,Zi, 信 和 号 表示 将 ALU 的 输出 送 入 寄存 器 Z 中 。 因 为 ALU 的 输出 被 
直接 送 到 寄存 器 Z, 因 此 ,实际 上 无 须 控制 信号 Z ,这 里 在 第 (2) 步 加 了 Zi, 信 和 号 ,主要 是 为 了 
表示 ALU 的 输出 在 此 时 被 送 入 了 寄存 器 Z。 

如 图 5.9 所 示 ,由 于 指令 译 码 线路 等 控制 逻辑 的 延迟 ,控制 信号 总 是 在 时 钟 信号 开始 
一 段 时 间 之 后 才 有 效 ,我 们 把 这 段 时 间 记 为 Clk-to-Signal, 它 的 时 延 一 定 大 于 锁 存 延迟 
Clk-to-Q, 因 此 ,在 控制 信和 号 开始 有 效 的 时刻, 寄存 器 R2 的 输出 已 经 有 效 , 此 时 ,R26w 开 
始 作 用 于 三 态 门 ,到 达 时 刻 三 态 门 打开 , R2 的 内 容 被 送 到 总 线 上 ,经 过 总 线 传输 和 
ALU 延迟 ,在 t 时 刻 运算 结果 到 达 寄 存 器 Z 的 输入 端 ,再 经 过 一 段 建立 时 间 , 在 时 刻 
稳定 ,下 个 时 钟 到 来 后 就 开始 写 寄 存 器 Z。 为 了 正确 写 人 Z, 运 算 结果 还 必须 在 Z 的 输入 
端 继续 稳定 一 段 保持 时 间 。 因 此 ,为 了 保证 能 正确 完成 ALU 运算 并 将 运算 结果 正确 写 
入 Z 寄 存 器 ,R2。 必 须 至 少 保持 三 态 门 接 通 时 间 .总 线 传输 时 间 、ALU 延迟 .寄存 器 Z 的 
建立 和 保持 时 间 之 和 , 即 R2。, 必 须 持续 保持 到 ts 时 刻 ,同样 ,add 信号 也 必须 持续 保持 到 
右 时 刻 。 







R2 的 输出 开始 有 效 


通 三 态 ”总 线 伟 
门 时 间 ， 输 时 间 






保持 








ALU 时 延 





_ 建立 时 间 


to ti fy 万 ta ts 


图 5.9 ALU 操作 控制 信号 的 定时 


3) 从 内 存 读 取 一 个 字 ( 指 令 或 数据 或 数据 的 地 址 ) 

早期 的 计算 机 ,其 CPU 和 主 存 之 间 采 用 “异步 ”方式 进行 通信 。 例 如 ,对 于 读 操作 , 首 
先 ,CPU 送出 一 个 读 信号 (read) 来 启动 一 次 主 存 读 操作 ,然后 等 待 主 存 完成 读 操作 。 主 存 
一 旦 完成 读 操 作 ( 即 把 数据 放 到 MDR 中 ) ,就 向 CPU 发 回 一 个 MFC(Memory-Function- 
Completed ,存储 功能 完成 ) 信 号 ,使 CPU 结束 等 待 状态 ,继续 执行 指令 。CPU 在 等 待 期 间 ， 
每 个 时 钟 到 来 时 都 会 采样 MFC 信号 , 若 检测 到 MFC 信号 有 效 , 则 表明 存储 器 已 将 数据 读 
出 。 为 了 使 CPU 能 从 执行 状态 转 入 等 待 状态 ,需要 有 一 个 控制 信号 ,这 里 用 WMFC(Wait 
MFC) 表 示 该 控制 信和 号。 

假定 某 条 指令 中 要 实现 以 下 操作 : RLR2]<-M[LR[LR1]], 该 操作 的 含义 是 将 寄存 器 R1 
所 指 的 主 存单 元 内 容 装 入 寄存 器 R2 , 则 在 图 5.7 所 示 的 数据 通路 中 完成 该 操作 的 控制 信号 
序列 如 下 : 


中 央 处 理 器 


(1) Rlow, MAR, 

(2) read, WMFC 

(3) MDRo , R2i, 

第 (1) 步 通过 内 部 总 线 将 R1 的 内 容 送 到 MAR 的 输入 端 ,操作 在 一 个 时 钟 周期 内 完成 。 
在 下 个 时 钟 到 来 后 经 过 一 个 锁 存 延迟 Clk-to-Q, MAR 输入 端的 地 址 被 送 到 地 址 总 线 。 第 
(2) 步 在 CPU 发 出 read 命令 的 同时 ,通过 WMFC 控制 信号 使 CPU 转 入 等 待 状态 ,处 于 等 
待 状态 的 时 间 取 决 于 所 用 存储 器 的 速度 。 通 常 , 从 主 存 读 取 一 个 字 的 时 间 比 在 CPU 内 部 
进行 一 个 操作 所 花费 的 时 间 要 长 得 多 ,需要 多 个 时 钟 周期 。 因 此 ,这 一 步 不 能 在 一 个 时 钟 周 
期 内 完成 。 第 (3) 步 当 CPU 采样 到 MFC 信号 有 效 后 ,就 直接 将 MDR 中 的 内 容 通过 内 总 线 
送 到 R2, 这 一 步 操作 在 一 个 时 钟 周期 内 完成 。 

“同步 ”方式 下 ,存储 器 总 是 在 读 信号 发 出 后 的 固定 几 个 时 钟 周期 内 准备 好 数据 ,因而 
CPU 不 必 等 待 主 存 发 回 MFC 信号 , 即 “ 同 步 ” 方 式 下 第 (2) 步 不 需要 WMFC 信和 号。 目前， 
由 于 主 存 基本 上 采用 SDRAM 芯片 ,所 以 主 存 与 CPU 之 间 大 多 采用 “同步 ”方式 进行 通信 。 

4) 把 一 个 字 ( 数 据 ) 写 人 主 存 

操作 MLRLR2]] < 一 RLR1] 的 含义 是 ,将 寄存 器 R1 的 内 容 写 人 寄存 器 R2 所 指 的 主 存单 
元 中 。 在 图 5. 7 所 示 的 数据 通路 中 完成 该 操作 的 控制 信号 序列 如 下 : 

(1) Rlow, MDRs, 

(2) R2 ,MAR。 

(3) write WMFC 

第 (3) 步 和 上 述 读 内 存 操作 的 第 (2) 步 一 样 ,通常 要 有 多 个 时 钟 周 期 。 此 外 , 若 主 存 采用 
像 SDRAM 芯片 这 样 的 同步 DRAM 芯片 , 则 不 需要 WMFC 信号 。 

如 果 第 (1) 步 和 第 (2) 步 两 个 传送 不 使 用 相 。 ” 介 -_ 介 _ _ 「 指令 译 码 器 介 








同 的 物理 通道 ,例如 ,不 送 到 同一 组 总 线 上 , 则 
可 同时 执行 。 显 然 ,在 图 5.7 所 示 的 单 总 线 结 
构 中 ,这 是 不 允许 的 。 

5. 三 总 线 数据 通路 

要 使 机 器 性 能 提高 ,必须 使 每 条 指令 的 时 
钟 周期 数 尽量 少 。 单 总 线 CPU 中 一 个 时 钟 周 
期 内 只 允许 传 一 个 数据 ,因而 其 指令 执行 效率 
很 低 。 因 此 ,有 些 CPU 内 部 采用 多 总 线 结构 。 

图 5.10 给 出 了 三 总 线 结构 数据 通路 示意 
图 。 所 有 通用 寄存 器 在 一 个 双 口 寄存 器 堆 


(register file) 中 。 人 允许 两 个 寄存 器 的 内 容 同 时 
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输出 到 A 总 线 和 也 总 线 。 | | 一 sm fm | 
和 单 总 线 结构 相 比 ,多 总 线 结构 在 执行 指 a 


>4 
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作 数 指令 “op R1, R2, R3” 的 功能 为 RER3]< 
RLR1] op RIR2], 则 可 用 总 线 A 和 也 传送 源 操 | 
作 数 ,总 线 C 传送 目的 操作 数 。 源 总 线 和 目的 图 5.10 三 总 线 数据 通路 


XC 
存储 器 总 线 
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总 线 之 间 的 连接 通过 ALU 实现 。 假 定 所 需 操作 通过 ALU 一 次 就 可 完成 ,那么 ,该 指令 可 
在 一 个 时 钟 周期 内 完成 ,所 需 的 控制 信号 为 “R16s ,R26ws ,op,R3inc”。 

该 数据 通路 中 , 若 将 一 个 寄存 器 内 容 传送 到 另 一 个 寄存 器 , 则 需要 通过 ALU 来 完成 ， 
实际 上 只 要 控制 ALU 进行 "直送 ”操作 即 可 。 多 总 线 结 构 中 ,临时 寄存 器 YY 和 2 都 可 以 不 
要 ,这 是 因为 ALU 的 输入 通路 分 别 是 总 线 A 和 总 线 B, 输 出 通路 为 总 线 C, 三 者 无 冲突 ,而 
在 图 5.7 的 单 总 线 数据 通路 中 ,如果 缺少 了 立 或 Z, 则 ALU 的 输入 操作 数 和 输出 结果 中 必 
定 有 两 个 数据 同时 被 送 到 同一 个 总 线 上 ,因而 会 发 生 总 线 数据 冲突 。 

目前 ,几乎 所 有 处 理 器 都 采用 流水 线 方式 执行 指令 ,而 采用 上 述 单 总 线 或 三 总 线 方式 连 
接 的 数据 通路 很 难 实现 指令 流水 执行 。 为 了 更 好 地 理解 处 理 器 设计 技术 ,本 章 后 面 主要 介 
绍 单 周期 处 理 器 设计 和 多 周期 处 理 器 设计 ,流水 线 处 理 器 设计 技术 在 第 6 章 介 绍 。 


5.2 单 周期 处 理 器 设计 


处 理 器 设计 涉及 数据 通路 的 设计 和 控制 逻辑 的 设计 ,其 设计 过 程 如 下 。 

第 一 步 : 分 析 每 条 指令 的 功能 。 

第 二 步 : 根据 指令 的 功能 给 出 所 需 的 元 件 ,并 考虑 如 何 将 它们 互 连 。 

第 三 步 : 确定 每 个 元 件 所 需 控 制 信号 的 取 值 。 

第 四 步 : 汇总 所 有 指令 涉及 的 控制 信号 ,生成 反映 指令 与 控制 信号 之 间 的 关系 表 。 

第 五 步 : 根据 关系 表 , 得 到 每 个 控制 信号 的 逻辑 表达 式 , 据 此 设计 控制 电路 。 

一 个 指令 系统 常常 有 几 十 到 几 百 条 指令 ,实现 一 个 完整 指令 系统 的 处 理 器 是 一 项 非常 
复杂 、 烦 琐 的 任务 。 为 了 能 清楚 说 明 处 理 器 设计 过 程 与 方法 ,本 节 以 实际 的 MIPS 指令 系统 
为 例 来 说 明 具 体 的 设计 过 程 。 有 关 MIPS 指令 系统 参见 4. 4. 1 节 , 图 5. 11 再 次 给 出 了 
MIPS 的 3 种 指令 格式 。 由 于 篇 幅 的 限制 ,不 可 能 介绍 所 有 指令 的 实现 ,为 此 ,选择 了 具有 
代表 性 的 若干 条 指令 作为 实现 目标 。 

31 26 25 21 20 16 15 11 10 有 和 0 
op TS nt rd shamt func 
(a) R- 型 指令 
21 26 25 21 20 16 15 0 
op TS nt imm16 
(b) [型 指令 
31 26 25 0 
op target 
(9 本 型 指令 
图 5.11 MIPS 指令 格式 









































本 节选 择 以 下 11 条 MIPS 指令 作为 实现 目标 。 
5 条 R- 型 指令 : 


add Lay Xr Et 
sub Ey Ey 


subu rdy Ea; Et 


slt ri rer Et 


sltu 1 


5 条 工 型 指令 : 


ori rt, rs, imml6 


addiu rt, rs, imml6 


lw rt, rs, imm16 
Sw rt, rs, imml6 
beq rs, rt, imm16 
1 条 丁 型 指令 : 
j target 


中 央 处 理 器 


这 些 指 令 比 较 具 有 代表 性 ,包含 了 R- 型 开 型 和 本 型 3 种 类 型 的 指令 ; 既 有 算术 /逻辑 运 
算 指令 ,又 有 取 数 / 存 数 指令 ; 既 有 条 件 转移 指令 ,又 有 无 条 件 转移 指令 ; 既 有 需要 考虑 溢出 
判断 的 指令 ,又 有 无 须 考虑 溢出 的 指令 ; 既 有 对 带 符号 数 判断 大 小 的 指令 ,又 有 对 无 符号 数 


判断 大 小 的 指令 。 关 于 这 些 指令 的 介绍 内 容 涵 盖 了 大 部 分 指令 的 基本 实现 技术 。 
指令 功能 的 描述 


5:2,.1 


设计 处 理 器 的 第 一 步 先 要 确认 每 条 指令 的 功能 , 表 5.1 给 出 了 上 述 11 条 MIPS 指令 的 
RTL 描述 。 其 RTL 描述 采用 5.1. 1 节 的 规定 。 因 为 每 条 指令 的 第 一 步 都 是 取 指 令 并 PC 加 
4, 使 PC 指向 下 一 条 指令 ,所 以 表 中 除 第 一 条 add 指令 外 ,其 余 指令 都 省 略 了 对 第 一 步 的 描述 。 





表 5.1 11 条 目标 指令 功能 的 RTL 描述 
指 令 功 能 说 明 
add rd,rs,rt M[PC],PC<PC+4 从 .RD 疝 间 的 内 有 弟 丰 中 到 物 念 着 EC 各 扩 


sub rd,rs,rt 


R[rd]<-R[rs] + R[rt] 





从 rssrt 中 取 数 后 相 加 减 , 若 溢出 则 异常 处 理 ,否则 结 


果 送 rd 





subu rd,rs,rt 


R[rd]<-R[rs] 一 R[rb 


从 rs\rt 中 取 数 后 相 减 ,结果 送 rd( 不 进行 溢出 判 


断 ) 





if (R[rs]=<R[rt]) 


从 rs.rt 中 取 数 后 按 带 符号 整数 来 判断 两 数 大 小 





slt rd,rs,rt A 小 于 则 rd 中 置 1, 否 则 ,rd 中 清 零 
else ME 
R[rd]<0 (不 进行 溢出 判断 ? 
ee 从 rs\ 中 取 数 后 按 无 符号 数 来 判断 两 数 大 小 
sltu rd,rs,rt ‘ee 小 于 则 rd 中 置 1 ,否则 ,rd 中 清 零 
els， :省 4 二 
R[rd]<0 (不 进行 溢出 判断 ) 





orirt,rs,imml16 


R[rt]<—R[rs]|ZeroExt(imm16) 


从 rs 取 数 ,将 imml6 进行 零 扩 展 ,然后 两 者 按 位 


或 ,结果 送 rt 





addiu rt,rs,imml6 





R[rt]<—R[rs]+SignExt(imm16) 





从 rs 取 数 ,将 imml6 进行 符号 扩展 ,然后 两 者 相 


加 ,结果 送 rt( 不 进行 溢出 判断 
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续 表 
指 令 功 能 说 明 
a Addr<-R[rs] 十 SignExt(imm16) | 从 rs 取 数 ,将 imml6 进行 符号 扩展 ,然后 两 者 相 
0 R[rt<-M[Addr] 加 ,结果 作为 访 存 地 址 Addr, 从 Addr 中 取 数 并 送 rt 
a Addr<-R[rs] 十 SignExt(imm16) | 从 rs 取 数 ,将 imml6 进行 符号 扩展 ,然后 两 者 相 
sw rt,rs,imm ME Addr]< RE] 加 ,结果 作为 访 存 地 址 Addr, 将 rt 送 Addr 中 
做 减法 以 比较 rs 和 rt 中 内 容 的 大 小 ,并 计算 下 一 
Cond<—R[rs]—R[rt] 条 指令 地 址 ,然后 根据 比较 结果 修改 PC。 转 移 目 
ee if (Cond eq 0) 标 地 址 采用 相对 寻 址 ,基准 地 址 为 下 一 条 指令 地 
We PC<-PC 十 4 十 (SignExt(imm16) | 址 ( 即 PC 十 4) ,位 移 量 为 立即 数 imm16 经 符号 扩 
X4) 展 后 的 值 的 4 倍 。 因 此 ,转移 目标 指令 的 范围 为 
相对 于 当前 指令 的 前 32 767 到 后 32 768 条 指令 
PC<31:2>> 熏 PC 一 31:28>> | | 第 一 步 无 须 进行 PC 十 4 而 直接 计算 目标 地 址 , 符 
人 target<25:0> 号 ‖ 表示 “拼接 ” 


在 对 所 有 指令 进行 功能 分 析 的 基础 上 ,可 以 进行 数据 通路 的 设计 。 
5.2.2 数据 通路 的 设计 


为 简化 数据 通路 设计 ,假定 所 用 的 数据 存储 器 和 指令 存储 器 皆 为 一 种 理想 存储 器 。 如 
图 5. 12 所 示 ,理想 存储 器 有 一 个 32 位 数据 输入 端 DataIn; WE Address 
一 个 32 位 数据 输出 端 DataOut; 还 有 一 个 读 写 公 用 的 地 址 | 
输入 端 Address。 控 制 信 号 有 一 个 写 使 能 信号 WE, 写 操作 DataIn 
受 时 钟 信号 Clk 的 控制 ,假定 采用 下 降 沿 触发 , 即 在 时 钟 下 32 
降 沿 开始 写 人 信息 。 < 

该 理想 存储 器 的 读 操作 是 组 合 逻辑 操作 , 即 在 地 址 5.12 理想 存储 器 外 部 结构 
Address 有 效 后 ,经 过 一 个 “ 取 数 时 间 ”, 数据 输出 端 
DataOut 上 数据 有 效 ; 写 操作 是 时 序 逻 辑 操作 , 即 在 WE 为 1 的 情况 下 ,当时 钟 Clk 边沿 到 
来 时 ,DataIn 开始 写 入 存储 单元 中 。 

1. 算术 逻辑 部 件 的 设计 

上 述 11 条 指令 涉及 带 溢 出 判断 的 加 法 和 减法 、 带 符号 整数 的 大 小 判断 、 无 符号 数 的 大 
小 判断 、 相 等 判断 以 及 各 种 逻辑 运算 等 。 为 了 支持 这 11 条 指令 包含 的 运算 ,ALU 必须 具有 
相应 的 功能 。 

图 5.13 给 出 了 一 个 实现 上 述 11 条 指令 中 运算 的 ALU。 该 ALU 的 输入 为 两 个 32 位 
操作 数 A 和 了 ,其 中 ,核心 部 件 是 加 法 器 ,加 法 器 的 输出 除 两 个 数 的 和 Add-Result 以 外 ,还 
有 进位 标志 Add-Carry、 零 标志 Zero 溢出 标志 Add-Overflow 和 符号 标志 Add-Sign。 有 关 
加 法 器 的 实现 可 参见 第 3 章 内 容 。 在 操作 控制 端 ALUectr 的 控制 下 ,在 ALU 中 执行 “加 
法 ”“ 减 法 >"“ 按 位 或 ?>“ 带 符号 整数 比较 小 于 置 1” 和 “无 符号 数 比 较 小 于 置 1 等 运算 ， 
Result 作为 ALU 运算 的 结果 被 输出 ,同时 , 零 标 志 Zero 和 溢出 标志 Overflow 也 被 作为 
ALU 的 结果 标志 信息 输出 。 

从 图 5. 13 可 以 看 出 ,ALU 的 操作 由 一 个 ALU 操作 控制 信号 生成 部 件 产生 的 控制 信 
号 来 控制 ,该 控制 逻辑 的 输入 是 ALUctr 信号 ,输出 有 4 个 控制 信号 : SUBctr 用 来 控制 


DataOut 
32 








中 央 处 理 器 











Ci : 
Add-C ) )— 一 一 一 : 
Ca 全 : Zero 

























































并 A BD ;Overflow 
器 |AddResuit 
Da ”| 异 或 门 上 ~ 
| 全 人 -| Ml | 
展 32 
:? ”| 或 门 
: 一 一 一 一 一 一 | 阵列 



































2 
OPctr OVctr SIGetr 


ALU 操作 控制 信号 





生成 部 件 





3 外 32 3 








b 
A B ALUctr 


图 5.13 11 条 目标 指令 的 ALU 实现 


ALU 执行 加 法 还 是 减法 运算 , 当 SUBctr = 1 时 ,做 减法 , 当 SUBctr = 二 0 时 ,做 加 法 ; 
@OPctr 用 来 控制 选择 哪 种 运算 的 结果 作为 Result 输出 ,因为 所 实现 的 11 条 指令 中 只 可 能 
有 加 / 减 、 按 位 或 .小 于 置 1 这 3 种 运算 ,所 以 OPctr 需要 两 位 ; @OVetr 用 来 控制 是 否 要 进 
行 溢出 判断 , 当 OVctr 二 1 时 ,需要 判断 溢出 ,此 时 , 若 结果 发 生 溢出 , 则 溢出 标志 Overflow 
为 1, 当 OVectr==0 时 ,无 需 判断 溢 出 ,此 时 ,即使 结果 发 生 溢出 ,溢出 标志 Overflow 也 不 为 
1; @SIGctr 信号 控制 ALU 是 执行 “ 带 符号 整数 比较 小 于 置 1? 还 是 “无 符号 数 比较 小 于 置 
1” 功 能 , 当 SIGctr 二 0, 则 执行 “无 符号 数 比较 小 于 置 1”, 当 SIGctr 二 1, 则 执行 “ 带 符号 整数 
比较 小 于 置 1”。 

根据 表 5. 1 列 出 的 每 条 指令 的 功能 ,可 以 了 解 到 各 条 指令 在 ALU 中 所 进行 的 运算 ,由 
此 可 列 出 各 条 指令 对 应 的 4 种 ALU 操作 控制 信号 取 值 , 如 表 5. 2 所 示 。 


表 5.2 11 条 目标 指令 对 应 的 4 种 ALU 操作 控制 信号 取 值 














指 令 功 能 运算 类 型 ”|SUBctr| OPctr | OVetr |SIGctr 
add rd,rs,rt R[rd]j<—R[rs]+R[rt] 加 ( 判 溢出 ) 0 00 1 x 
sub rd,rs,rt R[rd]j<—R[rs]—R[rt] 减 ( 判 溢出 ) 1 00 1 x 
subu rd,rs,rt R[rd]<—R[rs]—R[rt] 减 (不 判 溢出 ) 1 00 0 x 
0 减 ( 不 判 溢出 ) 
slt rdsrs,rt 1 带 符号 整数 比 | 1 10 0 1 
else 较 大 小 




















R[rd]<-0 


ol 
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续 表 
指 令 功 能 运算 类 型 ”|SUBctr| OPetr | OVetr |SIGctr 
if (RI ~<R[Lrt]) 
| 减 (不 判 溢出 ) 
sltu rd,rs,rt 无 符号 数 比 较 1 10 0 0 
else i 
R[rd]<-0 
ori rt,rs,imml6 R[rt]<—R[rs||ZeroExt(imm16) ad x 01 0 x 
出 
addiu rt,rs,imml16 | R[rtj<-R[rs] 十 SignExt(imm16) | 加 (不 判 溢出 ) 0 00 0 党 
. Addr<—R[rs]+SignExt(imm16) > 
lw rt,rs,imm16 R[rt]- MEAdadr] 加 (不 判 溢出 ) 0 00 0 如 
。 Addr<-R[rs] 二 SignExt(imml16) 
E TS， 6 ) 0 00 0 x 
sw rt,rs,imml M[Addr]<R[rt] 加 (不 判 溢出 
Cond<-R[rs]—R[Lrt] 减 ( 判 0) 1 xx 0 x 
beq rs,rt,imm16 if (Cond eq 0) 
PC 一 PC 十 (SignExt (imm16) | 加 (不 判 溢出 0 00 0 x 
xXx4) 
PO<3112>2-PC<31128> 
儿 x Xxx x x 
人 target<25:0> 无 须 ALU 运算 





注 : XX 表示 无 论 取 什么 值 都 不 影响 运算 结果 。 


从 表 5.2 可 知 , 指 令 addiu、lw、sw 和 beq 转移 目标 地 址 计算 的 ALU 控制 信号 取 值 一 
样 ,都 是 进行 加 法 运算 并 不 判 溢 出 , 记 为 addu 操作 ;指令 subu 和 beq 判 0 操作 的 ALU 控制 
信和 号 可 看 成 一 样 ,都 做 减法 运算 并 不 判 溢出 , 记 为 subu 操作 。 因 此 ,这 11 条 指令 可 以 归纳 
为 以 下 7 种 操作 : addu、add、or、subu、sub,、sltu,slt, 需 要 三 位 对 其 进行 编码 ,因而 ALU 的 
操作 控制 输入 端 ALUctr 至 少 有 三 位 。 

在 对 ALUctr 进行 编码 时 ,可 以 根据 这 些 ALU 操作 和 4 种 ALU 操作 控制 信号 的 对 应 
关系 进行 优化 ,例如 ,把 加 减 控 制 (SUBctr)、 溢 出 判断 (OVectr) 和 符号 控制 (SIGctr) 等 信号 
分 别 对 应 到 不 同 的 位 来 进行 控制 。 表 5. 3 给 出 了 ALUctr 的 一 种 3 位 编码 方案 。 


表 5.3 ALUetr 的 三 位 编码 及 其 对 应 的 操作 类 型 和 ALU 控制 信号 


























ALUctr<2:0> | 操作 类 型 | SUBctr | OVetr | SIGctr | OPctr<1:0> OPctr 的 含义 
000 addu 0 0 沁 00 选择 加 法 器 的 结果 输出 
001 add 0 X 00 选择 加 法 器 的 结果 输出 
010 or x 0 x 01 选择 “ 按 位 或 ”结果 输出 
0 (未 用 ) 

100 subu 1 0 x 00 选择 加 法 器 的 结果 输出 
让 人 于 sub 1 下 x 00 选择 加 法 器 的 结果 输出 
严守 办 sltu 1 0 0 10 选择 小 于 置 位 结果 输出 
下 重生 slt 0 1 10 选择 小 于 置 位 结果 输出 




















央 天 处 理 器 


根据 表 5. 3 得 到 各 输出 控制 信号 的 逻辑 表达 式 如 下 : 


SUBctr=ALUctr<2> 

OVctr= !ALUctr<1>g&gALUctr<0> 
SIGctr=ALUctr<0> 

OPctr<1>=ALUctr<2>& ALUctr<1> 
OPctr<0>=!ALUctr<2>ALUctr<1>g& !ALUctr<0> 


根据 上 述 逻 辑 表达 式 ,不 难 实现 图 5.13 中 的 ALU 操作 控制 信号 生成 部 件 。 

如 果 要 实现 更 多 指令 , 则 ALU 必须 支持 更 多 的 运算 ,如 取 负 (neg)、 取 反 (not) .与 
(and) 、 异 或 (xor) ,或 非 (nor) 等 ,如 果 在 ALU 中 考虑 所 有 这 些 情况 的 话 , 需 在 图 5. 13 所 示 
的 ALU 中 增加 相应 的 取 负 、 按 位 取 反 、 按 位 与 , 按 位 异 或 , 按 位 或 非 等 逻辑 电路 ,同时 ALU 
输出 结果 选择 控制 信号 OPctr 的 位 数 需 扩充 到 至 少 3 位 ,ALUctr 的 位 数 需 扩充 到 4 位 。 

2. 取 指 令 部 件 的 设计 

从 上 述 指令 功能 的 RTL 描述 中 可 以 看 出 ,每 
条 指令 的 第 一 步 都 是 完成 取 指 令 并 计算 下 一 条 指 
令 地 址 的 功能 。 因 此 ,在 数据 通路 中 ,需要 专门 设 
计 一 个 取 指 令 部 件 来 完成 上 述 功能 。 



































图 5. 14 是 取 指令 部 件 的 示意 图 。 假 定 指令 专 。 ”| AR | 指令 字 
门 存放 在 指令 存储 器 中 , 它 只 有 读 操作 , 读 指令 操 ;| 存储 器 32 | 
作 可 看 成 是 组 合 逻 辑 操作 ,因此 无 须 控制 信号 的 控 | 
制 , 只 要 给 出 指令 地 址 ,经 过 一 定 的 “ 取 数 时 间 ” 后 ， 国史 到 抽 古村 大 各 国 


指令 被 送出 。 指 令 的 地 址 来 自 PC, 有 专门 的 下 地 
址 逻辑 来 计算 下 条 指令 的 地 址 ,然后 送 PC。 因 为 是 单 周期 处 理 器 ,每 个 时 钟 周期 执行 一 条 
指令 ,所 以 每 来 一 个 时 钟 ,PC 的 值 都 会 被 更 新 一 次 ,因而 ,PC 无 须 “ 写 使 能 ”信和 号 控制 。 下 
地 址 逻辑 中 ,要 区 分 是 顺序 执行 还 是 转移 执行 。 若 是 顺序 执行 , 则 执行 PC 十 4; 若 是 转移 执 
行 , 则 要 根据 当前 指令 是 分 支 指令 还 是 跳 转 指令 来 计算 转移 目标 地 址 。 

3. R- 型 指令 的 数据 通路 

图 5.15 是 R- 型 指令 相关 的 数据 通路 示意 图 ,用 它 可 以 完成 对 两 个 寄存 器 Rs 和 Rt 内 
容 的 运算 并 将 结果 写 人 Rd 寄存 器 。 像 add 和 sub 等 指令 还 要 判断 结果 是 否 溢出 ,只 有 不 
溢出 时 才 写 结果 到 Rd, 和 否则 转 异 常 处 理 程序 执行 。 
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图 5.15 支持 R- 型 指令 功能 的 数据 通路 
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指令 中 Rs 和 Rt 是 两 个 源 操 作 数 寄存 器 编号 ,Rd 是 目的 寄存 器 编号 ,因此 ,寄存 器 堆 
的 两 个 读 地 址 端 Ra 和 Rb 应 分 别 与 Rs 和 Rt 相连 , 写 地 址 端 Rw 与 Rd 相连 。ALU 运算 结 
果 连 到 寄存 器 堆 的 写 数据 端 busW ,控制 信号 RegWr 为 “ 写 使 能 ”信号 ,只 有 在 RegWr 信号 
为 1 且 不 溢出 的 情况 下 ,运算 结果 才 写 和 人 寄存 器 堆 , 显 然 R- 型 指令 执行 时 ,RegWr 信和 号 应 该 
;证 罗 

11 条 目标 指令 中 有 5 条 R- 型 指令 : add、sub、subu.slt 和 sltu, 根 据 表 5. 2 可 知 ,它们 分 
别 对 应 ALU 的 5 种 操作 : add、sub、subu、slt 和 sltu, 因 此 ,可 根据 不 同 的 指令 ,控制 将 不 同 
的 操作 编码 送 到 ALU 操作 控制 端 ALUctr, 以 使 在 ALU 中 进行 不 同 指令 所 对 应 的 运算 。 

当前 时 钟 周 期 内 执行 的 运算 结果 总 是 在 下 一 个 时 钟 到 来 时 开始 写 到 寄存 器 堆 中 。 为 了 
能 写 人 正确 的 稳定 结果 ,ALU 操作 控制 信号 必须 稳定 一 段 时 间 保 持 不 变 。 

4. 立即 数 运算 指令 的 数据 通路 

工 型 带 立 即 数 的 运算 类 指令 都 涉及 对 16 位 立即 数 进行 符号 扩展 或 零 扩展 ,然后 和 Rs 
的 内 容 进行 运算 ,最 终 把 ALU 的 运算 结果 送 目的 寄存 器 Rt。 

11 条 目标 指令 中 ori 指令 和 addiu 是 工 型 带 立 即 数 的 运算 类 指令 ,涉及 的 操作 有 or 和 
addu。 图 5. 16 是 在 图 5. 15 的 基础 上 增加 了 工 型 立即 数 运算 类 指令 功能 而 得 到 的 数据 通路 
示意 图 ,因此 , 它 同时 也 能 完成 R- 型 指令 的 执行 。 
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图 5.16 支持 工 型 带 立 即 数 运算 指令 功能 的 数据 通路 


与 图 5.15 相 比 ,图 5.16 有 以 下 3 处 变动 : 

(1) 因为 R- 型 指令 和 工 型 指令 的 目的 寄存 器 不 同 , 所 以 在 寄存 器 堆 的 写 地 址 端 Rw 处 
增加 了 一 个 多 路 选择 器 ,由 控制 信号 RegDst 控制 选择 Rd 为 目的 寄存 器 还 是 Rt 为 目的 寄 
存 器 。 

(2) 因为 工 型 指令 的 立即 数 只 有 16 位 ,需要 对 其 扩展 为 32 位 才能 送 到 32 位 ALU 运 
算 。 对 于 按 位 逻辑 运算 ,应 采用 零 扩 展 , 对 于 算术 运算 ,应 采用 符号 扩展 。 因 此 ,在 数据 通路 
中 应 增加 一 个 扩展 器 ,由 控制 信号 ExtOp 控制 进行 符号 扩展 还 是 零 扩展 ,其 输入 端 连 到 指 
令 中 的 imm16。 

(3) 因为 R- 型 指令 和 工 型 指令 在 ALU 的 B 口 的 操作 数 来 源 不 同 ,所 以 ,在 ALU 的 B 


输入 端 增加 了 一 个 多 路 选择 器 ,由 控制 信号 ALUSrc 控制 选择 busB 还 是 扩展 器 输出 作为 
ALU 的 B 口 操作 数 。 

5. Load/Store 指令 的 数据 通路 

lw/sw 指令 是 工 型 指令 ,lw 指令 的 功能 为 RLRt]<-M[R[Rs] 十 SignExt(imm16)] ,sw 
指令 的 功能 为 MLR[LRs] 十 SignExt(imm16)]<-R[LRt]。Load 指令 和 Store 指令 的 地 址 计 
算 过 程 一 样 ,都 要 先 对 立即 数 imm16 进行 符号 扩展 ,然后 和 寄存 器 Rs 的 内 容 相 加 ,得 到 访 
存 地 址 。Load 指令 从 该 地 址 中 读 取 一 个 32 位 数 , 送 到 寄存 器 Rt 中 ;Store 指令 则 相反 。 

图 5.17 是 在 图 5. 16 的 基础 上 增加 了 Load/Store 指令 功能 而 得 到 的 数据 通路 示意 图 ， 
因此 , 它 同 时 也 能 完成 R- 型 和 工 型 运算 类 指令 的 执行 。 与 图 5. 16 相 比 ,有 以 下 两 处 变动 : 
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图 5.17 支持 Load/Store 指令 功能 的 数据 通路 


(1) 因为 运算 类 指令 和 Load 指令 写 人 目的 寄存 器 的 来 源 不 同 ,所 以 在 寄存 器 堆 的 写 数 
据 端 busW 处 增加 了 一 个 多 路 选择 器 ,由 控制 信号 MemtoReg 控制 选择 将 ALU 结果 还 是 
存储 器 读 出 数据 写 人 目的 寄存 器 。 

(2) 因为 Load/Store 指令 需要 读 写 数据 存储 器 , 故 增 加 了 数据 存储 器 。 访 存 地 址 在 
ALU 中 计算 ,因此 数据 存储 器 的 地 址 端 Adr 连 到 ALU 的 输出 。Store 指令 将 Rt 内 容 送 存 
储 器 ,所 以 直接 将 busB 连 到 数据 存储 器 的 DataIn 输入 端 , 而 将 输出 端 DataOut 连 到 busW 
端的 多 路 选择 器 上 。 控 制 信号 MemWr 用 作 “ 写 使 能 ”信号 。Load/Store 指令 的 地 址 运算 
对 立即 数 imm16 进行 符号 扩展 ,ALUctr 输入 端的 操作 类 型 是 不 判 溢出 的 加 法 addu。 

6. 分 支 指令 的 数据 通路 

分 支 指令 也 是 工 型 指令 ,能 根据 不 同 的 条 件 进 行 分 支 转移 。 例 如 ,相等 转移 指令 beq 的 
功能 为 (RL[Rs]== RLRt]) PC 所 PC 十 4 十 (SignExt(imnm16) X 4) else PC<—PC++4。 
图 5. 18 是 在 图 5. 17 的 基础 上 增加 beq 指令 功能 而 得 到 的 数据 通路 。 与 图 5. 17 相 比 ,主要 
增加 了 取 指 令 部 件 , 转 移 目 标 地 址 计算 在 下 地 址 逻辑 中 实现 ,在 ALU 中 执行 的 是 不 判 溢出 
的 减法 操作 subu。 

下 地 址 逻辑 的 输出 是 下 一 条 指令 地 址 ,4 个 输入 是 PC、Zero 标志、 立即 数 imm16 和 控 
制 信号 Branch。 在 ALU 中 对 RLRs]j 和 RLRtj] 做 减法 得 到 一 个 Zero 标志 ,根据 Zero 标志 
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图 5.18 支持 分 支 指令 功能 的 数据 通路 


可 判断 是 否 转移 。 对 于 转移 目标 地 址 的 计算 ,需要 先 对 立即 数 imm16 进行 符号 扩展 再 乘 4， 
然后 和 基准 地 址 PC 十 4 相 加 。 所 以 , ALU 的 输出 Zero 标志 需 送 到 下 地 址 逻辑 ,立即 数 
imm16 和 PC 也 要 送 到 下 地 址 逻辑 ,控制 信号 Branch 表示 当前 指令 是 否 是 分 支 指令 ,也 应 
送 到 下 地 址 逻辑 ,以 决定 是 否 按 分 支 指令 方式 计算 下 一 条 指令 地 址 。 

因为 指令 长 度 为 32 位 , 主 存 按 字 节 编 址 ,所 以 指令 地 址 总 是 4 的 倍数 , 即 最 后 两 位 总 是 
00, 因 此 ,PC 中 只 需 存 放 前 30 位 地 址 , 即 PC<<31:2> 之 。 这 样 , 下 条 指令 地 址 的 计算 方法 
如 下 。 

顺序 执行 时 : PC< 31:2 之 熏 PC<31:2 之 十 1。 

转移 执行 时 : PC< 31:2 之 二 PC<<31:2> 十 1 十 SignExtLImml6] 。 

取 指 令 时 : 指令 地 址 二 PC<31:2> “00”。 

图 5. 19 是 下 地 址 计算 逻辑 ,从 图 中 可 看 出 ,每 来 一 个 时 钟 Clk, 当前 PC 作为 指令 地 址 
被 送 到 指令 存储 器 去 取 指令 的 同时 ,下 地 址 逻辑 计算 下 一 条 指令 地 址 并 送 PC 的 输入 端 ,在 
下 一 个 时 钟 到 来 后 写 人 PC。 
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5.19 分 支 指令 的 下 地 址 逻辑 设计 


7. 无 条 件 转移 指令 的 数据 通路 

无 条 件 转移 指令 是 本 型 指令 ,指令 中 给 出 了 26 位 目标 地 址 ,其 功能 是 无 条 件 将 目标 地 
址 设置 到 PC 中 。 跳 转 目 标 地 址 的 具体 计算 方法 为 PC<31:2><PC<31:28> | target 
二 25:0 二 。 图 5. 20 给 出 了 在 图 5. 19 的 基础 上 加 上 无 条 件 转移 指令 功能 的 完整 的 取 指令 部 
件 示 意图 。 下 地 址 逻辑 中 增加 了 跳 转 目标 地 址 的 计算 功能 ,并 通过 控制 信号 Jump 来 选择 
作为 下 一 条 指令 的 PC 值 。 
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图 5.20 完整 的 取 指令 部 件 


取 指 令 阶 段 开始 时 ,新 指令 还 未 被 取出 和 译 码 , 因 此 取 指 令 部 件 中 的 控制 信号 (Branch、 
Jump) 的 值 还 是 上 一 条 指令 产生 的 旧 值 ,此 外 ,新 指令 还 未 被 执行 ,因而 标志 (Zero) 也 为 旧 
值 。 但 是 ,由 这 些 旧 控制 信号 值 确定 的 地 址 只 被 送 到 PC 输入 端 ,并 不 会 写 和 人 PC, 因 此 不 会 
影响 取 指 令 功能 。 只 要 保证 在 下 一 个 时 钟 Clk 到 来 之 前 能 产生 正确 的 下 一 条 指令 地 址 即 
可 。 单 周期 方式 下 ,所 有 指令 都 在 单个 时 钟 周期 内 完成 执行 ,因而 下 一 个 时 钟 会 在 足够 长 的 
时 间 ( 最 长 的 指令 周期 ) 后 到 来 ,此 时 ,控制 信号 早 就 是 新 取出 的 当前 指令 对 应 的 控制 信号 
了 ,因而 , 取 指令 部 件 能 得 到 正确 的 下 一 条 指令 地 址 ,并 在 下 一 个 时 钟 到 来 前 被 送 到 PC 的 
输入 端 ,一 旦 下 一 个 时 钟 到 来 后 ,该 地 址 开始 写 入 PC, 并 作为 新 指令 的 地 址 从 指令 存储 器 中 
取出 新 的 指令 。 

取 指令 部 件 的 输出 是 指令 ,输入 有 3 个 : 标志 Zero、 控 制 信号 Branch 和 Jump。 下 地 址 
逻辑 中 的 立即 数 imm16 和 目标 地 址 target<25:0 之 都 直接 来 自 取出 的 指令 。 因 此 , 取 指令 
部 件 的 外 部 结构 如 图 5. 21 所 示 。 
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图 5.21 取 指令 部 件 的 外 部 结构 
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8. 综合 11 条 指令 的 完整 数据 通路 

综合 考虑 上 述 所 有 数据 通路 的 结构 ,可 得 到 如 图 5. 22 所 示 的 完整 单 周期 数据 通路 。 图 
中 所 有 加 下 划 线 的 都 是 控制 信号 ,用 虚线 表示 。 指 令 执 行 结果 总 是 在 下 一 个 时 钟 到 来 时 开 
始 保存 在 寄存 器 .数据 存储 器 或 PC 中 。 
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图 5.22 完整 的 单 周期 数据 通路 


至 此 ,已 完成 了 所 有 11 条 指令 所 用 到 的 数据 通路 ,包括 所 用 元 件 及 其 互 连 ,并 给 出 了 控 
制 信号 。 下 一 步 应 考虑 如 何 产 生 控 制 信号 ,这 就 是 控制 逻辑 单元 的 设计 间 题 。 


5.2.3 控制 远 辑 单元 的 设计 


控制 单元 主要 包含 指令 译 码 器 ,其 输入 的 是 指令 操作 码 op(R- 型 指令 还 包括 功能 码 
func) ,输出 的 是 控制 信号 。 控 制 单元 设计 过 程 如 下 : 

(1) 根据 每 条 指令 的 功能 ,分 析 控 制 信号 的 取 值 ,并 在 表 中 列 出 。 

(2) 根据 列 出 的 指令 和 控制 信号 的 关系 , 写 出 每 个 控制 信号 的 逻辑 表达 式 。 

1. 控制 信号 取 值 分 析 

根据 对 取 指 令 阶 段 执 行情 况 的 分 析 可 知 ,Clk 信号 到 来 后 ,经 锁 存 延迟 (Clkr-to-Q) 时 
间 ,PC 的 值 作为 访 存 地 址 被 送 到 指令 存储 器 ,经 过 “ 取 数 时 间 ” 后 ,指令 被 取出 , 送 控 制 单 
元 ,经 指令 译 码 器 译 码 ,送出 控制 信号 。 随 后 ,每 条 指令 便 在 控制 信号 的 控制 下 完成 相应 的 
功能 。 

以 下 分 析 每 条 指令 执行 阶段 控制 信号 的 取 值 情况 。 

1) R- 型 指令 执行 阶段 

图 5. 23 是 R- 型 指令 执行 过 程 示意 图 ,其 中 的 粗 线 描述 了 R- 型 指令 的 数据 在 数据 通路 
中 的 执行 路 径 : Register File(Rs,Rt)-~>busA,busB 一 ALU->Register FileC(Rd) 。 

控制 信号 的 取 值 分 析 如 下 。 

Branch 王 Jump 王 0: 因为 不 是 分 支 指令 和 无 条 件 跳 转 指令 。 

RegDst 二 1: 因为 R- 型 指令 的 目的 寄存 器 为 Rd。 

ALUsrc 二 0: 保证 选择 busB 作为 ALU 的 B 口 操作 数 。 
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图 5.23 ” R- 型 指令 执行 过 程 


ALUctr 二 add/sub/subu/slt/sltu: 5 条 R- 型 指令 的 操作 各 不 相同 ,因而 对 应 5 种 类 型 。 

MemtoReg 二 0: 保证 选择 ALU 输出 送 到 目的 寄存 器 。 

RegWr=1: 保证 在 下 个 时 钟 到 来 时 ,在 不 发 生 溢出 的 情况 下 结果 被 写 到 目的 寄 
存 器 。 

MemWr= 二 0: 保证 在 下 个 时 钟 到 来 时 ,不 会 有 信息 写 到 数据 存储 器 。 

ExtOp 二 x: 因为 ALUsrc 一 0, 所 以 扩展 器 (Extender) 的 值 不 会 影响 执行 结果 , 故 
ExtOp 取 0 或 1 都 无 所 谓 。 

图 5.24 给 出 了 R- 型 指令 的 操作 定时 过 程 。 从 图 中 可 以 看 出 ,下 一 条 指令 地 址 PC 十 4 
将 在 下 一 个 Clk 到 来 时 开始 写 人 PC ,指令 执行 结果 (CALU 输出 ) 也 将 在 下 一 个 Clk 到 来 时 
开始 写 人 目的 寄存 器 Rd。 
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图 5.24 R- 型 指令 的 操作 定时 
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2) 工 型 运算 指令 执行 阶段 
图 5. 25 中 的 粗 线 给 出 了 工 型 运算 指令 的 执行 过 程 ,从 图 中 可 以 看 出 ,其 数据 在 数据 通路 
中 的 执行 路 径 为 : Register File(Rs) 一 busA ,扩展 器 (imm16) 一 ALU->Register File(Rt)。 


Instruction<31:0> 





RegWr=11 Ey 
一 | Branch=0 -- -一 | 
取 指 令 


Jump=0 -一 -一 | 部 件 


D0 ke 























op Rs Rt Rd imml6 


busA Zero 
[一 一 一 





Overflow 

















上 
MemtoReg=0 











1 1 
ExtOp=0/] ALUctr=or/addu 





图 5.25 工 型 运算 指令 执行 过 程 


对 于 目标 指令 中 的 工 型 运算 指令 ori 和 addiu, 不 难看 出 各 控制 信号 的 取 值 如 下 : 
Branch 二 Jump 王 0, RegDst 二 0,ALUsrc 二 1,ALUctr 二 or/addu(ori 指令 为 or,addiu 指令 为 
addu) ,MemtoReg 二 0, RegWr 二 1, MemWr 二 0,ExtOp 二 0/1(ori 指令 为 0,addiu 指令 为 1)。 

3) Load/Store 指令 执行 阶段 

图 5.26 中 的 粗 线 给 出 了 Load 指令 的 执行 过 程 ,从 图 中 可 以 看 出 ,其 数据 在 数据 通路 
中 的 执行 路 径 为 : Register File(Rs) 一 busA, 扩 展 器 (imm16) 一 ALU (addu) 一 数据 存储 
器 一 Register File(Rt)。 
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图 5.26 Load 指令 的 执行 过 程 


Load 指令 各 控制 信号 的 取 值 如 下 : Branch 王 Jump 王 0,RegDst 王 0,ALUsrc 王 1， 
ALUctr= 王 addu,MemtoReg 王 1,RegWr 王 1,MemWr 王 0,ExtOp 王 1( 符 号 扩展 ) 。 

图 5. 27 是 Store 指令 的 执行 过 程 示 意图 。 从 图 中 可 看 出 ,其 数据 在 数据 通路 中 的 执行 
路 径 为 : Register File(Rs,Rt) 一 busA ,扩展 器 (imm16) ,busB-ALU(addu) ,busB 一 数据 
存储 器 。 
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5. 27 Store 指令 的 执行 过 程 





Store 指令 各 控制 信号 的 取 值 如 下 : Branch = 二 Jump 二 0, RegDst 二 x, ALUsrc 一 1， 
ALUctr 一 addu,MemtoReg 一 x,RegWr 一 0,MemWr 王 1,ExtOp 王 1( 符 号 扩展 ) 。 

4) 分 支 指令 执行 阶段 

分 支 指令 beq 通过 做 减法 来 得 到 Zero 标志 ,然后 将 Zero 标志 送 到 取 指 令 部 件 ,和 控制 
信号 Branch 一 起 进行 “与 ”操作 ,以 控制 下 一 条 指令 地 址 的 计算 。 因 此 ,其 数据 在 数据 通路 
中 的 执行 路 径 为 : Register File(Rs,Rt) 一 busA,busB 一 ALU(subu) 一 Zero 标志 一 取 指 令 
部 件 。 在 取 指令 部 件 ( 参 见 图 5. 19) 中 , 若 Zero=0, 则 执行 PC<31:2 之 熏 PC<<31:2 二 十 1; 
若 Zero=1, 则 执行 PC<<31:2>< 所 PC<31:2> 十 1 十 SignExtLimml16] 。 

beq 指令 各 控制 信号 的 取 值 如 下 : Branch 二 1,Jump 二 0, RegDst 二 x, ALUsrc 二 0， 
ALUctr=subu, MemtoReg=x,RegWr=0,MemWr=0,ExtOp= x。 

5) 无 条 件 转 移 指令 执行 阶段 

在 11 条 指令 中 ,无 条 件 转移 指令 最 简单 ,除了 改变 PC 的 值 外 ,不 做 任何 其 他 工作 。 因 
此 ,只 在 取 指 令 部 件 中 由 控制 信号 Jump 控制 下 一 条 指令 地 址 的 计算 ,其 控制 信号 取 值 只 要 
保证 : @ Branch 二 0,Jump 王 1, 以 使 取 指 令 部 件 能 正确 得 到 下 条 指令 地 址 ;@ RegWr 一 0， 
MemWr 二 0, 以 使 寄存 器 堆 和 数据 存储 器 在 本 指令 执行 时 不 被 写 入 任何 结果 。 其 他 控制 信 
号 的 取 值 无 所 谓 。 

综 上 所 述 ,各 指令 的 控制 信号 取 值 如 表 5.4 所 示 。 

2. 控制 单元 设计 

在 分 析 每 条 指令 中 控制 信号 取 值 的 基础 上 ,可 以 设计 控制 单元 。 从 表 5.4 可 看 出 ,除了 
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ALUctr 外 ,其 他 都 是 单 值 控制 信号 ;而 且 , 对 于 所 有 R- 型 指令 ,除了 ALUctr 信号 以 外 ,其 
余 控 制 信号 的 取 值 都 相等 ,R- 型 指令 的 ALUctr 信号 的 取 值 由 其 func 字段 决定 。 因 此 ,可 
以 考虑 单独 用 一 个 局 部 的 ALU 控制 器 来 对 R- 型 指令 进行 译 码 , 译 码 输出 为 ALUctr 信号 。 


表 5.4 各 指令 控制 信号 取 值 



































func |100000|100010|100011|101010|101011 (与 func 取 值 无 关 ) 
op |000000|000000|000000|000000|000000|001101|001001|100011|101011|000100| 000010 
控制 信号 add sub subu slt sltu ori addiu lw sw beq jump 
Branch 0 0 0 0 0 0 0 0 0 1 0 
Jump 0 0 0 0 0 0 0 0 0 0 1 
RegDst 1 1 1 1 1 0 0 0 x x x 
ALUSrc 0 0 0 0 0 1 Y 1 1 0 x 
ALUctr add sub subu slt sltu or addu | addu | addu | subu x 
MemtoReg 0 0 0 0 0 0 0 1 x x x 
RegWr 1 1 和 1 1 1 EF 1 0 0 0 
MemWr 0 0 0 0 0 0 0 0 1 0 0 
ExtOp x x x x x 0 1 1 1 x x 



































如 图 5. 28 所 示 ,控制 器 分 成 主 控制 器 和 局 部 ALU 控制 器 两 部 分 。 主 控制 器 的 输入 为 
指令 操作 码 op ,输出 各 种 控制 信号 ,并 根据 指令 所 涉及 的 ALU 运算 类 型 产生 ALUop, 同 
时 ,生成 一 个 R- 型 指令 的 控制 信号 R-type, 用 它 来 控制 选择 将 ALUop 输出 作为 ALUctr 信 
号 ,还 是 根据 R- 型 指令 中 的 func 字段 来 产生 ALUctr 信和 号。 因此 ,R- 型 指令 时 R-type 王 1， 
非 R- 型 指令 时 R-type 二 0。 


func 
| 


| Bees “| 控制 器 


可 (局 部 ) |- ALUetr 
如 | 主 控制 器 -Arvop , 3 
































图 5.28 指令 译 码 器 的 设计 


ALUop 的 取 值 如 下 。 

(1) R- 型 指令 : 由 局 部 ALU 控制 器 根据 func 字段 来 确定 ALUctr, 故 ALUop 王 任意 。 
(2) 工 型 ori 指令 : ALUop 二 ALUctr 二 or。 

(3) 工 型 addiu 指令 : ALUop 二 ALUctr==addu。 

(4) 工 型 lw/sw 指令 : ALUop= 二 ALUctr 二 addu。 


央 天 处 理 器 


(5) 工 型 beq 指令 : ALUop 王 ALUctr 一 subu。 
(6) J- 型 指令 : ALUop=ALUectr 一 任意。 
根据 表 5.3 中 对 ALUctr 的 编码 定义 ,得 到 ALUop 的 编码 方案 ,如 表 5. 5 所 示 。 


表 5.5 ALUop 的 编码 分 配 























R- 型 指令 ori addiu lw/sw beq jump 
ALUctr add/sub/subu/sltysltu/… or addu addu subu 任意 
ALUop=2:0> 001( 或 011.101、110、111) 010 000 000 100 XXX 





1) 主 控制 器 的 设计 

根据 表 5.4 和 表 5.5, 可 写 出 主 控制 器 的 各 控制 信号 的 逻辑 表达 式 。 假 定 操 作 码 op 各 
位 分 别 表 示 为 op 二 5 这 .op 三 4 之 .op 三 3 之 ,op 二 2 这 .op 三 1 之 op 三 0 这 , 则 Branch、RegWr 
和 ALUop 的 逻辑 表达 式 如 下 : 


Branch=beq= !op<5>&!op<4>&!op<3>&op<2>&!op<1>&!op<0> 
RegWr =R-type+ori+addiu+ 1Tw 


= !op<5>&lop<4>&!op<3>&!op<2>&!op<1>&!op<0> (R- type) 
+!op<5>&!op<4> gop<3>&op<2>&!op<1> gop<0> (ori) 
+!op<5>&!op<4> gop<3>&!op<2>&!op<1> gop<0> (addiu) 
+op<5>&!op<4>&!op<3>&!op<2>&op<1> gop<0> (lw) 


ALUop<2>=beq=!op<5>&!op<4> &!op<3> gop<2>&!op<1>&!op<0> 

ALUop<1>=ori=!op<5>&!op<4> gop<3>&op<2>&!op<1> gop<0> 

RLUop<0>=R-type= !op<5>&!op<4>&!op<3>&!op<2>&!op<1>&!op<0> 

根据 上 述 各 控制 信号 的 逻辑 表达 式 ,可 方便 地 画 出 控制 器 逻辑 电路 。 如 图 5. 29 所 示 ， 
主 控制 器 可 用 一 个 PLA 电路 实现 ,其 中 的 “与 ?阵列 是 指令 译 码 器 。 

2) ALU 局 部 控制 器 的 设计 

ALU 局 部 控制 器 的 输入 为 func 字段 ,输出 为 ALU 操作 控制 信号 ALUectr ,根据 表 5.3 
可 得 到 本 节 所 要 实现 的 11 条 目标 指令 中 包含 的 5 条 R- 型 指令 的 func 字段 编码 分 配 情况 ， 
如 表 5.6 所 示 。 

表 5.6 funec 字段 编码 分 配 表 

















func<5:0> MIPS 指令 ALU 操作 类 型 ALUctr<2:0> 
100000 add add 001 
100010 sub sub Eo 
100011 subu subu 100 
1010 slt slt 和 
lo1011 sltu sltu 110 
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: op<5>. op<S> op<5> op<5> op<5> op<5>. op<S> 
下 0> <0> 下 0> 下 0> 下 0> F0> op<0> : 指令 译 码 器 
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图 5.29 主 控制 器 逻辑 电路 


如 果 仅 考虑 表 5.6 中 所 列 部 分 , 则 可 不 考虑 func 二 5:4 记 ,因为 func 字段 前 两 位 总 是 
10。 根 据 表 5. 6 中 列 出 的 func 二 3:0 之 与 ALUctr 之 间 的 关系 ,得 出 ALU 局 部 控制 器 中 输 
和 人 和 输出 之 间 的 逻辑 关系 如 下 : 


ALUctr<2>=!func<2>g&func<1> 
RARLUctr<1>=func< 3>&!func<2>&func<1> 


RARLUctr<0>=!func<3>&!func<2>&!func<1>&!func<0>+!func<2>&func<1>&1!func< 0> 


根据 上 述 逻 辑 关系 ,不 难 画 出 局 部 ALU 控制 器 的 逻辑 电路 图 。 
表 5.6 中 仅 列 出 了 5 条 R- 型 指令 的 编码 情况 ,如 果 要 实现 完整 的 MIPS 指令 , 则 func 
字段 前 2 位 也 必须 考虑 ,ALUctr 也 需要 用 更 多 位 数 才 能 表示 所 有 ALU 操作 控制 信号 。 


5.2.4 时 钟 周 期 的 确定 


计算 机 性 能 ( 即 程序 执行 速度 ) 由 3 个 关键 因素 决定 : 指令 数目 、 时 钟 周期 和 CPI。 其 
中 ,指令 数目 由 编译 器 和 指令 集 决定 ,而 时 钟 周期 和 CPI 由 处 理 器 的 设计 与 实现 决定 。 因 
此 ,处 理 器 的 设计 与 实现 非常 重要 , 它 直 接 影响 计算 机 的 性 能 。 单 周期 处 理 器 每 条 指令 在 一 
个 时 钟 周期 内 完成 ,所 以 CPI 为 1, 而 时 钟 周期 往往 很 长 ,通常 取 最 复杂 指令 所 用 的 指令 周 
期 。 在 给 出 的 11 条 指令 中 ,很 显然 ,最 长 的 是 lw 指令 周期 。 

图 5. 30 给 出 了 lw 指令 的 执行 定时 过 程 ,从 图 中 可 以 看 出 ,lw 指令 周期 所 包含 的 时 间 
为 “PC 锁 存 延迟 (Clk-to-Q) 十 取 指 令 时 间 十 寄存 器 取 数 时 间 十 ALU 延迟 十 存储 器 取 数 时 
间 十 寄存 器 建立 时 间 十 时 钟 扭 斜 ”。 




















ce HL | 
一 Clkto-Q 上 PP | 
rE XH | re 
ee | 刻 一 一 ~! 取 指 令 时 间 ! Ll 
MX 
1 i 一 控制 单元 延迟 1 
ALUetr 一 TI 和 | X am 了 | | 
ExtOp 日 值 | 用 新 值 1 
\ 1 日 
人 | 
ALUSrc | 日 | 
H 值 I UV 新 值 | 
MemtoReg | 值 1 人 新 值 写 目 的 寄存 器 | 
| 
RegWr 和 \ 新 值 
T | | 霖 存 器 取 数 时 间 1 
busA 1 ”上 人 | XX 办 \ 
| 扩展 器 和 MUX 延 迟 忆 一 一 ~! | l 
5 TD Ka | 
| 1 he 上 ALU 延迟 | 
Address 日 值 KK_ 新 秆 | 
| 存储 器 取 数 时 间 一 一 
busW 值 + 新 值 


图 5.30 Load 指令 的 执行 定时 


5.3 多 周期 处 理 器 设计 


单 周 期 处 理 器 时 钟 周期 取 最 复杂 指令 所 用 指令 周期 ,因而 远 远 大 于 许多 指令 实际 所 需 
执行 时 间 。 受 时 钟 周期 宽度 的 影响 , 单 周期 处 理 器 的 效率 低下 ,性 能 极 差 ,实际 上 ,现在 很 少 
用 单 周 期 方式 设计 CPU。 本 书 介绍 单 周 期 CPU 的 设计 实现 ,只 是 为 了 有 助 于 理解 实际 的 
多 周期 执行 和 流水 线 执行 两 种 方式 。 


“5$.3.1 信号 竞争 问题 


多 周期 处 理 器 的 基本 思想 为 : 把 每 条 指令 的 执行 分 成 多 个 大 致 相等 的 阶段 ,每 个 阶段 
在 一 个 时 钟 周期 内 完成 ;各 阶段 内 最 多 完成 一 次 访 存 或 一 次 寄存 器 读 写 或 一 次 ALU 操作 ; 
各 阶段 的 执行 结果 在 下 一 个 时 钟 到 来 时 保存 到 相应 存储 单元 或 稳定 地 保持 在 组 合 电路 中 ; 
时 钟 周期 的 宽度 以 最 复杂 阶段 所 用 时 间 为 准 , 通 常 取 一 次 存储 器 读 写 的 时 间 。 

在 介绍 单 周期 处 理 器 时 ,存储 器 被 简化 为 理想 情况 , 即 假定 每 次 写 操作 都 由 时 钟 控制 ， 
并 且 在 每 次 时 钟 到 来 时 ,地 址 ` 数 据 和 写 使 能 信号 都 已 稳定 一 段 时 间 。 事 实 上 ,存储 器 的 实 
际 写 操作 不 是 由 时 钟 边沿 触发 ,而 是 一 个 组 合 逻 辑 电路 。 其 写 操作 的 过 程 为 : 当 “ 写 使 能 ” 
信号 有 效 ,并 且 写 人 数据 和 地 址 已 稳定 , 则 经 过 一 个 写 操作 时 间 后 ,数据 被 写 信 。 这 里 ,重要 
的 一 点 是 : 地 址 和 数据 必须 在 “ 写 使 能 ”信号 有 效 前 先 稳定 在 各 自 的 输入 端 。 实 际 的 存储 器 
在 单 周 期 数据 通路 中 不 能 可 靠 工 作 , 这 是 因为 : 不 能 保证 地 址 和 数据 能 在 “ 写 使 能 ”信号 有 
效 前 稳定 , 即 地 址 、 数 据 和 “ 写 使 能 ”之 间 存 在 竞争 (race) 问 题 。 
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竞争 问题 有 时 会 导致 机 器 意外 出 错 。 在 多 周期 处 理 器 中 ,可 通过 以 下 方式 来 解决 竞争 
问题 : 首先 确认 地 址 和 数据 在 第 n 周期 结束 时 已 稳定 ,然后 ,使 “ 写 使 能 ”信号 在 一 个 周期 后 
( 即 第 十 1 周期 有 效 , 并 使 地 址 和 数据 在 “ 写 使 能 ”信号 无 效 前 不 改变 其 值 。 


“5.3.2 指令 执行 状态 分 析 


多 周期 处 理 器 中 ,每 条 指令 分 多 个 阶段 执行 ,每 个 阶段 占 一 个 时 钟 周期 , 称 为 一 个 状态 。 
因此 ,一 条 指令 的 执行 过 程 由 多 个 状态 组 成 。 在 指令 被 译 码 之 前 ,每 条 指令 所 完成 的 操作 是 
一 样 的 ,指令 译 码 后 不 同 的 指令 有 不 同 的 执行 过 程 。 

图 5.31 是 加 了 控制 信号 的 多 周期 数据 通路 示意 图 。 因 为 PC IR、 分 支 目标 地 址 寄存 器 
和 寄存 器 堆 只 能 在 需要 时 写 入 新 值 , 其 他 情况 下 不 能 写 入 ,所 以 它们 都 需要 由 “ 写 使 能 ”信号 
来 控制 ;而 寄存 器 A 和 B 是 临时 寄存 器 ,每 来 一 个 时 钟 都 可 改变 它们 的 值 ,因而 它们 无 须 
“ 写 使 能 ”控制 信号 。 


PCWr 


1 一 一 


RegWr， 
| 


_ PCWrCond 


严 一 一 一 一 一 Zero 
lorD MemWr IRWr 


Overflow 















ALUSelA BrWr PCSource 
1 1 
























































































































































T 1 
1 
| 1 
pc 0 1 
Adr <25:21> 
& 又 
Sk 1 | 存储 器 <20:16> 
Dout <15:0> 
~ Din 
一 人 
1 1 
扩 | | 
16 32 1 
IR<15:0>$ 一 | 一 | 展 左 移 1 | ALU 局 部 | 1 ! 
1 | 器 | 位 /| 1 | 控制 器 || | 
1 
1 
| ! 0 |! | 
二 一 ' |! 
4 | 1 | 1 ! 
MemtoReg ExtOp ALUSelB ALUop R-type 





5.31 带 控制 信号 的 多 周期 数据 通路 


PC 的 来 源 可 以 是 PC 十 4、 分 支 目 标 地 址 和 无 条 件 跳 转 目 标 地 址 ,由 PCSource 信号 控 
制 。 分支 目标 地 址 保存 在 专门 的 分 支 目 标 地 址 寄存 器 中 ,无 条 件 跳 转 目 标 地 址 由 PC 高 4 
位 和 指令 低 26 位 直接 拼接 后 在 低位 添 00 得 到 。 同 单 周 期 数据 通路 一 样 ,对 于 需要 判断 洲 
出 的 算术 运算 类 指令 , 当 发 生 溢 出 时 ,禁止 写 结果 到 寄存 器 堆 。 

1. 取 指 令 指令 译 码 / 取 数 阶段 

取 指 令 ,指令 译 码 / 取 数 是 所 有 指令 译 码 之 前 的 公共 操作 ,与 指令 译 码 结果 没有 关系 。 

1) 取 指 令 状态 

取 指 令 阶段 的 功能 是 IR<-M[PC],PC<-PC 十 4。 因 此 ,需要 将 PC 的 值 作为 地 址 来 读 


存储 器 ,并 将 读 出 指令 送 IR 输入 端 , 使 得 下 一 个 时 钟 到 来 时 , 读 出 的 指令 送 IR, 同 时 ,PC 将 
送 ALU 的 A 口 ,并 选择 4 送 ALU 的 B 口 ,控制 ALU 做 不 判 溢出 的 加 法 操作 ,得 到 PC 十 4， 
送 PC 输入 端 ,使 得 下 一 个 时 钟 到 来 时 ,PC 十 4 送 PC。 

该 状态 名 记 为 IFetch, 控制 信号 取 值 为 : IorD =0,ALUSelA 二 0, ALUSelB = 01， 
ALUOp=addu, PCSource=01,PCWr=IRWr=1, MemWr= RegWr= BrWr= R-type=0,， 
其 余 任 意 。 

2) 译 码 / 取 数 状 态 

译 码 / 取 数 阶段 的 功能 是 CU ( 译 码 )<IR 一 31:26>,A<RLIR 一 25:21>],B<RLIR 
到 20:16>]。 该 阶段 ALU 是 空闲 的 ,所 以 可 以 利用 ALU“ 投 机 ?计算 分 支 目 标 地 址 。 如 果 
当前 指令 是 分 支 指令 , 则 可 节省 一 个 时 钟 周期 ; 若 不 是 分 支 指令 ,也 不 会 有 任何 影响 。 

分 支 目标 地 址 计算 方法 为 PC 十 4 十 (SignExt(imm16) X4), 因 为 取 指令 阶段 结束 时 已 
经 把 PC 十 4 送 PC 输入 端 ,所 以 ,该 阶段 只 要 计算 PC 十 (SignExt(imm16) X4)。 

状态 名 记 为 RFetch/ID, 控制 信号 值 为 : ExtOp==1,ALUSelA =0,ALUSelB= 11， 
ALUOp=addu, BrWr=1,PCWr=PCWrCond=IRWr= MemWr= RegWr= R-type 二 0, 其 
余 任 意 。 

2. R- 型 指令 运算 阶段 

R- 型 指令 运算 执行 阶段 功能 为 RLIR<15:11]>] 和 一 A op B, 即 A、B 内 容 分 别 送 ALU 
的 A 口 和 B 口 ,进行 相应 运算 后 , 写 人 到 寄存 器 堆 中 。 对 于 R- 型 指令 ,ALU 操作 控制 信号 
ALUctr 由 局 部 ALU 控制 器 根据 func 字段 产生 ,而 主 控制 器 生成 的 ALUOpP 不 起 作用 。 
考虑 到 寄存 器 堆 写 人 时 的 “ 写 使 能 ”信号 和 写 和 人 数据、 地 址 信号 之 间 的 竞争 问题 ,该 阶段 要 用 
两 个 状态 来 完成 ,第 一 个 状态 先 送 数据 地址 ,第 二 个 状态 再 使 “ 写 使 能 ”信号 有 效 。 

R- 型 指令 执行 状态 ( 记 为 RExec) 的 控制 信号 取 值 为 : ALUSelA=1, ALUSelB=00， 
RegDst=R-type=1, RegWr=PCWr=PCWrCond=IRWr= MemWr=BrWr= MemtoReg 
二 0, 其 余 任意 。 

结束 状态 ( 记 为 RFinish) 的 控制 信号 取 值 为 : 除 RegWr 二 1 外 ,其 余 同 执行 状态 。 

3. 工 型 指令 立即 数 运算 阶段 

工 型 运算 指令 的 执行 阶段 功能 为 RLIR< 一 20:16>]<-A op Ext(LIR 一 15:0 盖 ])。 算 术 
运算 指令 (如 addiu) 对 立即 数 进行 的 是 符号 扩展 ,而 逻辑 运算 指令 (如 oriD) 进行 的 是 零 扩 展 。 

每 条 工 型 运算 指令 与 上 述 R- 型 指令 的 运算 阶段 一 样 ,也 分 执行 和 结束 两 个 状态 。 执 行 状 
态 中 有 两 个 信号 (ALUOp 和 ExtOp) 的 值 会 随 指令 不 同 而 不 同 : 算术 运算 指令 的 ExtOp 为 1， 
逻辑 运算 指令 的 ExtOp 为 0;ALUOp 的 取 值 由 指令 的 运算 类 型 确定 ,例如 ,ori 指令 的 ALUOp 
为 or,andi 指令 的 ALUOP 为 and,addiu 指令 的 ALUOPp 为 addu,addi 指令 的 ALUOp 为 add 
等 。 其 他 信号 取 值 如 下 : ALUSelA 王 1,ALUSelB 一 10,MemtoReg 一 RegDst 一 RegWr 一 PCWr 
一 PCWrCond= 王 IRWr 王 MemWr 王 BrWr 一 R-type 一 0, 其 余 任 意 。 

结束 状态 控制 信号 取 值 除 RegWr=1 外 ,其 余 信号 的 取 值 同 执行 状态 。 

例如 ,ori 指令 执行 状态 ( 记 为 oriExec) 的 控制 信号 取 值 为 : ALUSelA 王 1,ALUSelB 一 
10,ALUOp= or, ExtOp= MemtoReg = RegDst= RegWr= PCWr= PCWrCond= IRWr= 
Mem Wr 二 BrWr 二 R-type 二 0, 其 余 任意 ;ori 指令 结束 状态 ( 记 为 oriFinish) 的 各 控制 信号 的 
取 值 为 : RegWr 王 1,ALUSelA=1, ALUSelB 王 10,ALUOp 一 or,ExtOp 王 MemtoReg 一 
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RegDst 王 PCWr 王 PCWrCond=IRWr 王 MemWr 王 BrWr 王 R-type 一 0, 其余 任 意 。 

4. lw 指令 执行 阶段 

lw 指令 执行 阶段 功能 为 RLIR< 一 20:16]<M[LA 十 SignExt(LIR< 一 15:0 盖 ])] ,由 以 下 
3 个 状态 组 成 : 

(1) 访 存 地 址 计算 状态 ( 记 为 MemAdr): ALUSelA==1, ALUSelB=10, ALUOp= 
addu, ExtOp = IorD = 1, RegWr = PCWr = PCWrCond = IRWr = MemWr = BrWr 
R-type 王 0, 其 余 任意 。 

(2) 存储 器 取 数 状态 ( 记 为 MemFetch): ExtOp、ALUSelA、ALUSelB、ALUOp,IorD、 
R-type 和 上 一 个 状态 一 样 ,以 继续 保持 访 存 地 址 信号 的 稳定 ;MemtoReg 王 1 ,使 数据 尽早 稳 
定 在 寄存 器 堆 的 Dw 输入 端 ;RegDst=0, 使 地 址 尽早 稳定 在 寄存 器 堆 的 Rw 输入 端 ;RegWr 
二 PCWr 二 PCWrCond 二 IRWr 一 MemWr 一 BrWr 二 0, 使 所 有 寄存 器 和 存储 器 不 做 任何 更 
新 ;其 余 任 意 。 

(3) 结果 写 回 寄存 器 状态 ( 记 为 |wFinish) : RegWr 王 1, 使 数据 写 人 寄存 器 ,其 余 信 号 取 
值 同 上 一 个 状态 ,以 继续 保持 寄存 器 堆 的 Dw 和 Rw 输入 端 稳定 不 变 。 

5. sw 指令 执行 阶段 

sw 指令 执行 阶段 功能 为 MLA 二 SignExt(LIR<15:0>])]<B, 由 访 存 地 址 计算 和 存储 
器 存 数 ( 记 为 swFinish) 两 个 状态 组 成 。 第 一 个 状态 同 lw 指令 第 一 个 状态 ,第 二 个 状态 只 
要 使 MemWr=1 ,其余 控制 信号 不 变 , 这 样 保 证 存储 器 的 写 人 地 址 和 写 和 人 数据 在 本 状态 中 
稳定 不 变 。 

6. 分 支 指令 执行 阶段 

分 支 指令 beq 执行 阶段 的 功能 为 f(A 一 B= 二 0) then PC 分 支 目 标 地 址 。 因 此 只 要 一 
个 状态 即 可 ,该 状态 名 记 为 BrFinish。 其 控制 信号 取 值 为 : ALUSelA=1,ALUSelB==00， 
ALUOp= subu, PCWrCond = 1, PCSource = 10, RegWr = PCWr = IRWr = MemWr 
BrWr 二 R-type 二 0, 其 余 任 意 。 

7. 无 条 件 跳 转 指 令 执行 阶段 

跳 转 指 令 jump 执行 阶段 的 功能 为 PC<- 跳 转 目标 地 址 。 因 此 只 要 一 个 状态 即 可 ,该 状 
态 名 记 为 jumpFinish。 其 控制 信号 取 值 为 : PCSource 王 00,PCWr 王 1,RegWr 王 IRWr 
MemWr 王 BrWr=0 ,其余 任意 。 

根据 上 述 对 每 条 指令 执行 过 程 的 分 析 ,得 到 一 个 状态 转换 图 。 图 5. 32 是 一 个 支持 R- 
型 指令 、 芽 型 运算 类 指令 ori、lw/sw、beq 和 jump 指令 执行 的 状态 转换 示意 图 ,图 中 每 个 状 
态 用 一 个 状态 号 和 状态 名 标识 ,例如 ,0:IFetch 表示 第 0 状态 ,执行 取 指 令 (IFetch) 操 作 , 圆 
圈 中 示意 性 地 给 出 了 该 状态 下 部 分 控制 信号 相应 的 取 值 。 

程序 在 图 5. 31 所 示 的 多 周期 数据 通路 中 执行 的 过 程 就 是 图 5. 32 所 示 的 状态 转换 过 
程 。 每 来 一 个 时 钟 ,进入 下 一 个 状态 。 从 图 5. 32 可 看 出 ,R- 型 指令 、 工 型 运算 类 指令 和 sw 
指令 的 CPI 都 为 4;lw 指令 的 CPI 最 大 ,其 CPI 为 5; 分 支 指令 和 跳 转 指令 的 CPI 为 3。 如 
果 不 在 译 码 / 取 数 阶段 “投机 ?计算 分 支 目 标 地 址 , 则 分 支 指令 的 CPI 为 4。 


“5.3.3 硬 连 线路 控制 器 设计 
由 于 多 周期 数据 通路 中 每 个 指令 的 执行 有 多 个 周期 ,每 个 周期 的 控制 信号 取 值 不 同 ,所 
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5.32 指令 执行 状态 转换 图 


以 ,不 能 像 设 计 单 周 期 控制 器 那样 用 简单 的 真 值 表 描 述 的 方式 。 多 周期 控制 器 通常 采用 基 


于 有 限 状态 机 描述 和 微 程序 描述 两 种 方式 来 实现 。 


有 限 状态 机 描述 方式 实现 的 控制 器 称 为 有 限 状 态 机 控制 器 ,其 基本 思想 为 : 用 一 个 有 
限 状态 机 描述 指令 执行 过 程 ,由 当前 状态 和 操作 码 确 定 下 一 状态 ,每 来 一 个 时 钟 发 生 一 次 状 
态 改变 ,不 同 状态 输出 不 同 的 控制 信号 值 , 然 后 送 到 数据 通路 来 控制 指令 的 执行 。 

图 5. 33 描述 了 采用 这 种 方式 实现 的 控制 器 结构 , 它 由 两 部 分 组 成 : 一 个 组 合 逻 辑 控制 
单元 和 一 个 状态 寄存 器 。 通 常用 PLA 电路 实现 组 合 逻 辑 控制 单元 。 所 以 ,这 种 控制 器 也 称 


为 组 合 逻辑 控制 器 .PLA 控制 器 、 硬 连 线 路 控制 器 。 
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图 5.33 ”有限 状态 机 控制 器 结构 
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对 于 图 5. 33 所 示 的 有 限 状 态 机 ,假定 每 个 状态 号 如 图 5. 32 中 所 设 ,分别 为 0 一 11, 共 
12 个 状态 ,因此 ,状态 变量 要 用 4 位 , 设 分 别 为 S;S;SiS,。 考 察 每 个 状态 前 面 的 状态 和 指令 


操作 码 , 得 到 状态 转换 表 5. 7 。 


根据 表 5.7 可 画 出 用 PLA 电路 实现 的 状态 转换 电路 以 及 控制 信号 生成 电路 ,从 而 实现 
组 合 逻 辑 控制 单元 ,如 图 5. 34 所 示 。 该 图 实现 的 有 限 状 态 机 称 为 “摩尔 机 ,其 特点 是 控制 
信号 的 输出 仅 依赖 于 当前 的 状态 ,而 与 其 他 输入 没关系 。 因 此 ,“ 摩 尔 机 ”方式 实现 的 组 合 逻 
辑 控制 单元 被 分 为 两 部 分 : 由 操作 码 和 当前 状态 确定 下 一 状态 的 电路 部 分 和 由 当前 状态 确 


定 控制 信号 的 电路 部 分 (图 5. 34 中 由 右 下 角 虚 线 区 域 标 出 的 部 分 ) 。 
表 5.7 多 周期 控制 器 状态 转换 表 


































































































































































































当前 状态 指令 操作 码 下 一 状态 
S:S:S So ops ops ops opz op1 opo NS; NS NS NS。 
Zyl 0 0 0 0 
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6 OL Lt 
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5.34 用 PLA 电路 实现 的 组 合 逻 辑 控制 单元 


例 5.1 假定 多 周期 CPU 采用 图 5. 31 所 示 的 数据 通路 和 图 5. 34 所 示 的 控制 单元 。 
车 程序 中 各 类 指令 所 占 比 例 为 : Load 一 22%, Store 一 11%, R- 型 和 工 型 运算 一 49% ， 
Branch 一 16%,Jump 一 2%, 则 多 周期 CPU 比 单 周期 CPU 大 约 快 多 少 倍 ? 

解 : 由 图 5.32 知 ,图 5.31 所 示 多 周期 CPU 中 各 指令 时 钟 周 期 数 为 : Load 一 5 ,Store 一 
4,R- 型 和 工 型 运算 一 4, Branch 一 3,Jump 一 3, 故 CPI 王 0. 22X5 十 0. 11 X4 十 0. 49X4 十 
0.16X3 十 0.02X3 一 4.04。 

单 周 期 CPU 的 CPI 为 1, 但 时 钟 周期 为 最 长 的 Load 指令 执行 时 间 , 约 为 多 周期 时 钟 宽 
度 的 5 倍 。 假 设 单 周期 时 钟 宽度 为 1, 则 多 周期 时 钟 宽度 约 为 单 周 期 的 1/5, 因 此 ,多 周期 的 
总 体 时 间 约 为 4.04X1/5 二 0. 81; 而 单 周 期 总 体 时间 为 1X1=1, 故 多 周期 CPU 的 指令 执行 
速度 大 约 是 单 周期 CPU 的 1/0. 81=1. 23 倍 。 


5.4 微 程序 控制 器 设计 


硬 连 线路 控制 器 速度 快 ,适合 于 简单 或 规整 的 指令 系统 ,例如 MIPS 指令 集 。 但 是 ,由 
于 它 是 一 个 多 输入 /多 输出 的 巨大 逻辑 网 络 , 对 于 复杂 指令 系统 来 说 , 则 对 应 的 硬 连 线路 控 
制 器 结构 庞杂 ,实现 困难 ,维护 不 易 , 扩 充 和 修改 指令 相当 困难 。 如 果 指 令 系 统 太 复杂 ,甚至 
无 法 用 有 限 状 态 机 描述 。 所 以 ,对 于 复杂 指令 系统 或 其 中 的 复杂 指令 ,大 多 采用 微 程序 方式 
来 设计 控制 器 。 

微 程序 控制 器 是 M. V. Wilkes 最 先 在 1951 年 提出 的 。 用 微 程序 方式 实现 的 控制 器 称 
为 微 程序 控制 器 ,其 基本 思想 为 : 仿照 程序 设计 方法 ,将 每 条 指令 的 执行 过 程 用 一 个 微 程序 
来 表示 ,每 个 微 程序 由 若干 条 微 指令 组 成 ,每 条 微 指令 相当 于 有 限 状 态 机 中 的 一 个 状态 。 所 
有 指令 对 应 的 微 程序 都 存放 在 一 个 ROM 中 ,这 个 ROM 称 为 控制 存储 器 (Control Storage， 
CS) ,简称 控 存 。 

在 微 程序 控制 器 控制 下 执行 指令 时 ,CPU 从 控 存 中 取出 每 条 指令 对 应 的 微 程 序 ,在 时 
钟 的 控制 下 ,按照 一 定 的 顺序 执行 微 程序 中 的 每 条 微 指令 。 通 常 一 个 时 钟 周期 执行 一 条 微 


指令 。 
5.4.1 微 程序 控制 器 的 结构 


一 条 指令 的 功能 通过 执行 一 系列 基本 操作 来 完成 ,这 些 基 本 操作 称 为 微 操 作 。 每 个 微 
操作 在 相应 控制 信号 的 控制 下 执行 ,这 些 控制 信号 在 微 程序 设计 中 称 为 微 命令 。 例 如 ,前面 
提 到 的 控制 信号 PCWr 就 是 一 个 微 命令 ,可 以 控制 将 信息 写 人 PC。 

微 程序 是 一 个 微 指令 序列 ,对 应 一 条 机 器 指令 的 功能 。 每 条 微 指 令 是 一 个 0/1 序列 ,其 
中 包含 若干 个 微 命令 , 它 完成 一 个 基本 运算 或 传送 功能 。 有 时 也 将 微 指令 字 称 作 控制 字 
(Control Word,CW)。 

图 5. 35 给 出 了 微 程序 控制 器 的 基本 结构 。 其 输入 是 指令 和 条 件 码 ,输出 是 微 命令 。 
图 5. 35 中 使 用 了 一 个 微 程序 计数 器 PC, 用 来 指出 微 指令 在 控 存 中 的 地 址 。 每 次 把 新 指 
令 装 入 IR 时 ,“ 起 始 和 转移 地 址 发 生 器 ”将 根据 指令 内 容 , 生 成 微 程序 入 口 地 址 放 入 pPC 
中 ,以 后 每 来 一 个 时 钟 ,uPC 自动 增值 (十 “1”) ,这 样 ,依次 从 控 存 中 读 出 一 条 条 微 指令 执 
行 。pIR 为 微 指令 寄存 器 ,存放 从 控 存 取出 的 微 指令 , 每 条 微 指令 被 译 码 后 ,产生 一 系列 微 
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命令 , 送 到 数据 通路 中 。 机 器 指令 的 执行 过 程 常常 与 条 件 码 ( 即 标志 ) 有 关 , 因 此 微 程序 中 也 
引入 了 条 件 转移 概念 。 微 指令 中 的 “转移 控制 ?部 分 被 送 到 转移 地 址 发 生 器 ,根据 条 件 码 及 
相应 微 命令 产生 新 的 微 指令 地 址 送 入 pPC。 
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图 5.35 微 程序 控制 器 基本 结构 


取 指 令 过 程 是 每 条 指令 的 公共 操作 ,可 以 专门 用 一 个 取 指 令 微 程序 来 实现 。 因 此 , 微 程序 
控制 器 的 工作 流程 就 是 不 断 地 执行 取 指令 微 程序 和 执行 相应 指令 功能 对 应 的 微 程序 的 过 程 。 

微 程序 由 微 指令 组 成 , 微 程序 的 执行 要 解决 与 程序 的 执行 类 似 的 两 个 问题 四 微 指令 
格式 和 微 命令 编码 问题 ; @ 下 一 条 微 指令 地 址 确定 问题 。 


“5.4.2 微 命令 编码 


为 了 加 快 指令 执行 速度 ,通常 采用 定 长 微 指 令 字 格式 。 与 指令 由 操作 码 和 地 址 码 组 成 
类 似 , 微 指令 由 微 操作 码 和 微 地 址 码 两 部 分 组 成 。 微 操作 码 格 式 设计 主要 由 微 命令 编码 方 
式 决定 。 微 命令 编码 方式 主要 有 不 译 法 (直接 控制 法 ) 和 字段 直接 编码 法 两 种 ,早期 还 有 字 
段 间接 编码 法 和 最 小 (最 短 垂直 ) 编 码 法 ,现在 基本 不 用 了 。 

1. 直接 控制 法 

一 位 对 应 一 个 微 命令 , 微 操作 码 的 长 度 与 所 有 微 命令 的 个 数 相 当 , 无 须 译 码 , 因 此 ,也 称 
为 不 译 法 。 显 然 , 直 接 控 制 法 的 并 行 控制 能 力 强 ,不 必 译 码 , 控 制 电路 简单 速度 快 。 但 是 ， 
由 于 一 台 机 器 的 微 命 令 个 数 很 多 ,通常 达 几 百 个 ,因此 微 指令 字 可 能 多 达 几 百 位 ,实现 起 来 
非常 困难 。 此 外 ,因为 一 条 微 指令 中 往往 只 包含 很 少 几 个 微 操作 ,所 以 只 有 很 少 几 位 对 应 的 
微 命 令 为 1, 使 得 几 百 位 的 微 指令 字 中 只 有 少数 几 位 为 1, 因 而 编码 空间 利用 率 低 。 

2. 字段 直接 编码 法 

数据 通路 中 的 微 操作 之 间 存 在 两 种 关系 : 相 容 和 互 斥 。 相 容 微 操作 是 指 在 数据 通路 中 
能 同时 进行 的 微 操作 ,对 应 的 微 命令 称 为 相 容 微 命令 ; 互 斥 微 操 作 是 指 不 能 同时 进行 的 微 操 
作 , 对 应 的 微 命令 称 为 互 斥 微 命令 。 

字段 直接 编码 法 的 基本 思想 是 : 将 微 指令 分 成 若干 字段 ,每 个 字段 包含 若干 微 命令 。 
把 互 斥 微 操作 组 合 在 同一 字段 , 相 容 微 操作 组 合 在 不 同 字 段 , 对 每 一 字段 内 的 微 操 作 进行 纺 
码 。 因 此 ,一 条 微 指令 中 最 多 可 同时 发 出 的 微 操 作 数 就 是 微 命令 字段 的 个 数 。 

例 5.2 对 于 图 5.7 和 图 5. 8 所 示 的 单 总 线 数据 通路 ,假定 有 4 个 通用 寄存 器 RO、R1、 


R2 和 R3,ALU 操作 类 型 共 16 种 ,内 存 和 CPU 之 间 采 用 “异步 ”方式 通信 , 存 取 操作 由 
Read 和 Write 两 种 信号 控制 。 每 条 指令 执行 结束 时 ,都 要 执行 一 个 公共 操作 ,由 控制 信号 
End 控制 进行 指令 结束 处 理 ,查询 是 否 有 外 部 中 断 请 求 等 。 请 分 别 写 出 采用 直接 控制 法 和 
字段 直接 编码 法 的 微 操作 码 格式 。 

解 : 虽然 在 图 5. 7 所 示 的 单 总 线 数据 通路 中 没有 标 出 控制 信号 ( 微 命令 ) ,但 是 ,不 难看 
出 其 控制 信号 包括 以 下 几 类 。 

(1) 根据 图 5.8 所 示 ,控制 在 寄存 器 和 内 总 线 之 间 进 行 传送 的 控制 信号 有 16 个 : ROin、 
ROout、Rlin、Rlout、R2in、R2out、R3in、R3out Yin、 Zout、MARin .MDRin、MDRout、PCin、 
PCout IRin 。 

(2) ALU 操作 类 型 有 16 种 : add、sub、or、and、xor、…、mov, 因 此 控制 信号 占 4 位 。 

(3) ALU 进位 控制 信号 有 1 个 : 1-C0。 

(4) 暂 存 器 Y 清 零 控制 信号 有 1 个 : ClearY 。 

(5) 内 存 读 写 控制 信号 有 3 个 : Read Write`.WMFC。 

(6) 结束 控制 信号 有 1 个 : End。 

如 果 采 用 直接 控制 法 , 则 微 指令 字 中 微 操 作 码 部 分 的 长 度 就 是 控制 信号 的 总 个 数 。 本 
例 中 共有 控制 信号 ( 微 命令 ) 数 为 16 十 4 十 1 二 1 十 3 十 1 一 26 个 ,因此 , 微 操作 码 共 26 位 , 若 某 位 
为 1, 则 对 应 的 微 命令 有 效 ,否则 ,对 应 微 命 令 无 效 。 需 要 说 明 的 是 ,对 于 ALU 操作 控制 信号 ， 
其 控制 信号 的 个 数 并 不 是 16 ,而 是 4, 这 是 由 ALU 的 结构 和 功能 确定 的 (参见 3.2.4 节 )。 

如 果 采 用 字段 直接 编码 法 , 则 需 根据 微 操作 之 间 的 相 容 和 互 斥 关系 进行 分 组 。 假 设 
ALU 操作 控制 信号 为 ALUOp<<3:0>>, 则 分 组 和 编码 情况 如 表 5. 8 所 示 。 


表 5.8 单 总 线 数据 通路 微 命令 分 组 情况 及 其 编码 表 
组 ”名 微 操 作 ( 编 码 ) 微 命令 取 值 说 明 


No action (0000) 组 内 所 有 都 为 0 
Ro>Bus (0001) RO0ou 二 1, 其 余 为 0 
Rl>Bus (0010) ”| Rlow 二 1, 其 余 为 0 
寄存 器 送 总 线 控制 | R2->Bus (0011) ”| R26 一 1, 其 余 为 0 
(Rout) R3—>Bus (0100) R36ou 二 1, 其 余 为 0 
Z>Bus (0101) | Zi 二 1, 其 余 为 0 
MDR>Bus (0111) ”| MDR。 一 1, 其 余 为 0 
PC->Bus (1000) PC。 一 1, 其 余 为 0 


No action (000) 组 内 所 有 都 为 0 
Bus-~>RO (001) R0i 二 1, 其 余 为 0 
Bus>R1 (010) Rl 二 1, 其 余 为 0 
寄存 器 输入 控制 | Bus>R2 (011) R2i, 二 1, 其 余 为 0 
(Rin) Bus>R3 (100) R3i 二 1, 其 余 为 0 
Bus>Y (101) Ys 二 1, 其 余 为 0 
Bus>PC (110) PG 二 1 ,其 余 为 0 
Bus>IR (111) IR;, 一 1, 其 余 为 0 
MAR 和 MDR 输 | No action (00) MAR;, =0, MDR;, =0 
入 控制 MARin (01) MAR;, =1, MDR;, =0 
(MRin) MDRin (10) MAR, =0, MDR;, =1 





(1) 有 些微 指令 中 ,不 需要 有 寄存 
器 内 容 打 到 总 线 上 , 故 “No 
action” 。 

(2) 某 一 时 刻 只 能 有 一 个 寄存 器 内 
容 可 以 打 到 总 线 , 此 时 ,相应 寄存 
器 的 输出 微 命令 取 值 为 1, 组 内 其 
余 寄 存 器 输出 微 命令 的 取 值 都 为 0 





某 一 时 刻 ,可 以 同时 将 总 线 内 容 送 
多 个 寄存 器 ,所 以 ,组 内 这 些微 操 
作 并 不 互 斥 ,但 基本 上 不 会 同时 发 
生 , 为 了 缩短 微 操作 码 的 长 度 ,将 
它们 分 在 同一 组 





可 能 和 Rout 组 操作 同时 发 生 , 故 
分 在 不 同 组 
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续 表 
组 名 微 操作 (编码 ) 微 命令 取 值 说 明 
add (0000) ALUOp 王 0000 
sub (0001) ALUOp 王 0001 
d (0010) ALUOp 王 0010 
ALU 操作 控制 呈 (0011) AL UO O00 ALU 的 操作 由 ALU 的 操作 控制 
AL AL 
ALUOw xor (0100) ALUOp=0100 总 ALUOP 控制 
mov (1111) ALUOp=1111 
ALU 进位 控制 0—>Cin (0) 1 一 Co 一 0 
(Cin) l>Cin (1) 1 一 Co 一 1 
暂 存 器 清 零 控 制 | No action (0) ClearY=0 
(ClearY) ClearY (1) ClearY=1 
内 存 读 写 控制 No action (00) Road po WD 
(MEMODp) Read (01) Read=1, Write=0 
有 Write (10) Read 一 0, Write 一 1 
WMFC=1, 则 启动 CPU 对 MFC 
等 待 MFC 控制 No action (0) | WMFC=0 日 JE 全 昌 忆 到 对 
CWMFC) 采样 MFC 信号 (1) | WMFC=1 但 浊 条 亲 本， 寺 帮 肛 me 
存 完成 读 写 ,否则 ,CPU 继续 等 待 
一 1, 则 启 如 a 
指令 结束 控制 “| Noaction (0) | End=0 2 和 司 双 对 和 直 攻 本 水 但 
(END) 启动 中 断 查询 等 (1) | End 一 1 号 末 村 5 各 有效 焉 兴 二 有 
加 否则 ,CPU 继续 执行 下 一 条 指令 


从 表 6. 8 可 看 出 ,采用 字段 直接 编码 方式 ,共有 9 组 ,其 微 操作 码 的 位 数 从 直接 控制 方 
式 的 26 位 减少 到 了 4 十 3 十 2 十 4 十 1 十 1 十 2 十 1 十 1==19 位 。 

例 5.3 对 于 图 5. 31 所 示 的 多 周期 数据 通路 ,假定 采用 字段 直接 编码 法 , 则 微 指令 字 
可 划分 为 几 个 微 命 令 字 段 ? 请 给 出 一 种 微 命令 编码 方案 ,并 根据 该 方案 写 出 微 程序 。 

解 : 图 5. 31 所 示 的 多 周期 数据 通路 中 共有 15 种 控制 信号 ( 共 19 位 ): ExtOp， 
ALUSelA, ALUSelB, ALUOp, IorD, RegWr, PCWr, PCWrCond, IRWr, MemWr, BrWr， 
MemtoReg,PCSource, RegDst, R-type。 涉 及 的 微 操作 分 为 9 组 ,每 组 内 微 操 作 互 斥 , 分 组 
情况 以 及 其 中 的 一 种 编码 方案 如 表 5. 9 所 示 。 表 中 表示 任意 ,可 以 用 0 或 1 代替 。 

表 5.9 中 有 6 组 是 一 个 微 命令 控制 一 个 微 操 作 的 情况 ,所 以 ,这 些 字段 的 微 命令 编码 很 
简单 ,就 用 微 命令 的 取 值 作为 编码 ;还 有 3 组 是 多 个 微 命令 控制 一 个 微 操作 ,所 以 ,需要 进行 
编 ( 译 ) 码 ,编码 后 可 缩短 微 命令 字段 长 度 。 例 如 ,内 存 访 问 控制 字段 (MemOp) 从 3 位 缩短 
到 两 位 , 写 PC 控制 字段 (PCWrOp) 从 4 位 缩短 到 两 位 。 但 是 ,寄存 器 操作 控制 字段 
(RegOp) 包 含 的 微 操 作 有 3 个 ,需要 用 3 位 编码 ,而 本 身 包 含 的 微 命令 也 只 有 3 个 ,不 编码 
的 话 也 只 要 3 位 ,而 且 执行 时 不 需要 译 码 , 所 以 ,这 个 字段 还 是 不 组 合 为 好 。 按 表 5. 9 表示 
的 微 指 令 字 ( 仅 包含 微 命 令 字 段 ) 的 长 度 为 16 位 ,实际 上 也 仅 比 未 编码 的 直接 控制 方式 少 
3 位 ,并 没有 节省 多 少 空间 。 因 此 ,到 底 采 用 直接 控制 法 还 是 采用 编码 法 需要 很 好 地 权衡 。 

每 种 微 指令 字 组 合 相当 于 图 5. 32 中 的 一 个 状态 ,可 将 图 5. 32 的 有 限 状 态 机 用 微 程 序 
来 表示 ,结果 如 表 5. 10 所 示 。 这 样 每 个 状态 下 的 0/1 序列 就 构成 了 一 条 微 指令 , 共 有 12 条 
微 指令 。 
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工 轩 与 * 再 困 关 起 计 告 DTV 0=IAXNI'TI 一 dzol'T 一 IAueN | (01) Bled HM (dOweiNy 
蔷 图 温 ' 开 朵 六 动 计 千 DTV 0=IAXNI'T 一 dzol'0 一 INAueIN | (10) ed Peay [a 
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蓝 占 东 量 与 此 团 民 两 直 图 加 兽 六 导 AL | TIT 二 33401WU3WNL “0 二 1Sd334 ‘T= 二 TM334 | (OTT) lnod uM 
了 器 堵 音 与 汗 千 仿 导 Ho | 0=8exdolteIN *0==1sSG334'T 二 TM334 | (I0T) Ho-DTV HAM 
于 器 此 太 握 淫 哇 六 层 本 -8 | 0 一 39401W3WN'T 一 1sd394'T 一 M394 | (00T) NIV ?FA ee 
a 
沁 ' 竹 时 疹 丹 此 瞄 猎 示 陶 交 过 9 beh et Py 本 
开 阳 星 噬 妆 灾 %% 骨 于 句 直 旺 计 篆 坊 丑 硬 - 这 | 0 二 39401W3W' T= 二 1Sd334‘0 二 IM334 | (010) 《pee 江 - 洒 
开采 此 噬 阁 灾 %% 归 于 丹 直 量 鳞 放 和 续 坊 导 人 | T 一 3exoltueIN 0 一 1sQ3e 江 0 一 IAA3e | (TI00) APeaX-A 
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尊 志 兽 沙 二 镶 DTV 八卦 00=4RSNTV | (00) Dg*g 
尊 韦 兽 小 一 刘 DTV 多 动 六 I=VISnTV | (OD) Dv<eVv| ‘VRESATVY) 
尊 纠 闪 沙 一 议 DTV 其 小 Dd 0=VIeSnTV | (0) DH Veoq ee 
枉 养 盐 邵 TV 展 胸 >anj 甲 TI00=dOnTV | (100) adA 工 亲 
韦 兽 0 北 名 DTV 则 专 导 Fo 0I0=dOnTV | (010) 10| cdonTV) 
动 骂 nqns 此 陵 ' 则 冰 阅 台 腊 访 层 beq T00=dOnTV | (100) nqns | 陆 于 未 泌 DTV 
纱 闪 nppe 比 简 ' 则 比 狂 nipps 稚 昼 胖 夫 始 莫 其 字 尽 4s/AI 000=dONTTV | (000) nppe 
E09 只 书 着 六 风 对 ( 昏 旷 ) 动 六 凋 东 栈 
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表 5.10 5.32 中 有 限 状态 机 的 各 状态 对 应 的 微 指令 









































状 RegOPp 

态 | ALUOp| ALUSelA | ALUSelB MemOp | ExtOp | R-type | BrWr |PCWrOp 
号 RegWr| RegDst | MemtoReg 

0 000 0 01 0 x x 00 x 0 0 01 
攻 000 0 11 0 x x 01 0 1 00 
2 100 00 0 x x 01 Xx 0 0 10 
3 | XXX x xx 0 Xx x 01 x 0 0 11 
4 010 10 0 0 0 01 0 0 0 00 
5 010 10 1 0 0 01 0 0 0 00 
6 001 1 00 0 1 0 01 x 1 0 00 
杰 001 1 00 1 1 0 01 x 1 0 00 
8 000 1 10 0 x x 01 1 0 0 00 
9 000 1 10 0 xX Xx 10 1 0 0 00 
10 000 1 10 0 x Xx 01 1 0 0 00 
11 000 1 10 1 xX x 01 六 0 0 00 



































字段 直接 编码 方式 采用 相 容 微 操 作 分 在 不 同 字段 ,因此 ,能 最 大 限度 地 并 行 执 行 微 操 
作 , 具 有 较 高 的 并 行 控制 能 力 ,速度 较 快 。 此 外 ,由 于 对 同 字 段 的 微 操 作 进 行 了 编码 ,缩短 了 
微 命令 字段 的 长 度 ,因而 微 指令 字 较 短 ,节省 了 控 存 容量 。 但 是 ,对 于 多 个 微 命令 组 合 的 字 
段 ,由 于 进行 了 编码 ,所 以 执行 时 需要 相应 的 译 码 线路 ,这 样 , 与 直接 控制 法 相 比 ,增加 了 译 
码 线路 ,加 大 了 一 些 成 本 ,并 多 出 了 一 部 分 译 码 时 间 ,不 过 分 段 后 各 字段 位 数 少 ,所 以 译 码 对 
微 指 令 的 执行 速度 影响 不 大 。 

3. 字段 间接 编码 法 

在 字段 直接 编码 法 基础 上 ,可 通过 字段 间接 编码 的 方式 进一步 压缩 微 指 令 长 度 。 字 段 
间接 编码 是 指 : 某 一 字段 可 以 表示 多 个 微 命令 组 ,到 底 代表 哪 组 微 命令 , 则 由 另 一 个 专门 的 
字段 确定 。 

虽然 这 种 方式 可 进一步 缩短 微 指令 字 的 长 度 , 节 省 控 存 容量 ,但 意义 不 大 ,而 且 译 码 线 
路 复杂 ,时 间 开 销 大 。 通 常 极 少 使 用 这 种 方式 。 

4. 最 少 (最 短 、 垂 直 ) 编 码 法 

其 基本 思想 是 : 采用 类 似 指令 编码 的 思想 , 即 ,整个 微 操 作 码 部 分 作为 一 个 字段 ,每 次 
只 产生 一 个 微 操 作 。 采 用 这 种 方式 得 到 的 微 操 作 码 位 数 最 少 ,长 度 最 短 , 所 以 有 时 称 为 最 少 
(最 短 ) 编 码 法 ;用 这 种 格式 的 微 指令 编写 的 微 程序 较 长 ,所 以 也 称 为 垂直 型 微 指令 。 


“5.4.3 微 指 令 地 址 的 确定 


当前 微 指令 执行 结束 后 ,必须 确定 下 一 条 执行 的 微 指令 。 若 当前 执行 的 是 某 条 机 器 指 
令 对 应 微 程序 的 最 后 一 条 微 指令 , 则 下 一 条 微 指令 就 是 取 指 令 微 程序 的 第 一 条 微 指令 ; 若 执 
行 完 取 指令 微 程序 的 最 后 一 条 微 指令 , 则 下 一 条 微 指令 就 是 当前 指令 对 应 微 程 序 的 首 条 微 
指令 ; 若 在 某 个 微 程序 执行 过 程 中 , 则 可 能 按 顺序 取出 下 一 条 微 指令 执行 ,或 者 无 条 件 转 到 
另 一 处 微 指令 执行 ,或 根据 条 件 码 或 指令 操作 码 选择 不 同 分 支 处 的 微 指令 执 行 。 
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可 以 通过 在 微 指令 中 显 式 或 隐 仿 地 指定 下 一 条 微 指令 在 控 存 中 的 地 址 (简称 下 址 ) 来 解 
决 下 一 条 微 指令 的 确定 问题 。 下 一 条 微 指令 地 址 的 确定 方式 有 两 种 : 计数 器 法 ( 即 增 量 法 ) 
和 断定 法 ( 即 下 址 字段 法 )。 

1. 计数 器 法 

计数 器 法 的 主要 思想 是 : 使 用 一 个 专门 的 微 程序 计数 器 PC ,将 下 条 微 指令 地 址 隐 含 
地 存放 在 yPC 中 ,因此 ,这 种 方法 称 为 计数 器 法 。 顺 序 执行 时 ,根据 yPC 十 1 一 pyPC, 得 到 下 
一 条 微 指令 地 址 ;转移 执行 时 ,在 当前 微 指 令 后 添加 一 条 转移 微 指令 ,并 在 微 指令 中 添加 专 
门 的 转移 控制 字段 ,将 转移 微 指令 或 转移 控制 字段 中 的 控制 信息 送 到 微 指令 地 址 发 生 器 ,与 
相应 的 指令 操作 码 以 及 条 件 码 等 组 合 , 生 成 转移 地 址 送 pPC。 图 5. 35 所 示 的 就 是 采用 计数 
器 法 的 微 程序 控制 器 基本 结构 。 当 转移 分 支 很 多 时 ,相应 的 微 地 址 生成 逻辑 电路 很 复杂 。 
为 简化 微 地 址 生成 逻辑 ,通常 采用 PLA 或 ROM 来 实现 。 

2. 断定 法 

计数 器 法 的 缺点 是 必须 在 不 连续 执行 的 微 指 令 之 间 加 入 转移 微 指令 ,这 样 , 在 增加 微 指 
令 条 数 的 同时 ,还 严重 影响 指令 执行 速度 。 如 果 在 微 指 令 中 直接 明确 指定 下 一 条 微 指令 地 
址 ,这 样 ,相当 于 每 条 都 是 转移 微 指 令 ,即使 不 连续 执行 也 没有 关系 。 这 种 方法 称 为 断定 法 ， 
也 称 为 下 址 字段 法 。 断 定 法 虽然 加 快 了 指令 执行 速度 ,但 因为 增加 了 微 指令 的 长 度 , 从 而 影 
响 控制 存储 器 的 有 效 利 用 。 例 如 ,假定 一 个 采用 微 程 序 控制 器 的 处 理 器 的 控 存 容量 为 
4KB, 共 有 500 条 左右 的 微 指令 ,这 意味 着 下 址 字段 至 少 有 9 位 , 微 指令 长 度 为 64 位 左右 ， 
其 中 除了 下 址 字段 以 外 ,还 有 一 些 其 他 如 控制 多 分 支 转移 的 条 件 测试 和 转移 控制 字段 等 ,也 
都 用 于 控制 微 指令 的 寻 址 ,因此 ,大 约 有 五 分 之 一 的 控 存 空间 用 于 微 指令 寻 址 ,真正 用 来 存 
放 微 命令 的 空间 只 有 五 分 之 四 左右 。 

此 方法 最 明显 的 优点 是 消除 了 专门 的 转移 微 指 令 ,而 且 在 给 微 指令 分 配 地 址 时 不 需要 
考虑 如 何 排列 ,也 不 需要 对 pwPC 增 量 ,而 用 一 个 简单 的 微 指令 地 址 寄存 器 (AR) 来 存放 当 
前 微 地 址 。 采 用 断定 法 的 微 程序 控制 器 结构 如 图 5. 36 所 示 , 其 中 , 微 地 址 修改 逻辑 根据 当 
前 指令 ,状态 条 件 、 下 址 字段 和 转移 控制 字段 来 确定 微 程序 的 执行 顺序 。 
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图 5.36 采用 断定 法 的 微 程序 控制 器 结构 


下 面 通过 具体 例子 来 介绍 计数 器 法 和 断定 法 的 相关 实现 细节 。 
例 5.4 假定 采用 在 微 指 令 字 中 增加 转移 控制 字段 的 方式 来 实现 分 支 ,并 用 ROM 方式 


实现 机 器 指令 微 程序 首 地 址 的 生成 ,那么 ,对 于 表 5. 10 给 出 的 微 程序 ,请 分 别 给 出 采用 计数 
器 法 和 下 址 字段 法 时 的 微 程序 控制 器 结构 。 

解 : 表 5. 10 的 微 程 序 中 ,将 状态 号 作为 微 指 令 地 址 ,所 以 微 地 址 共 4 位 。 其 中 , 取 指 令 
微 程序 首 址 为 0000 ,地 址 0001 处 的 微 指令 执行 结束 后 ,可 能 会 转 到 不 同 指令 对 应 的 微 程 序 
执行 ,其 分 支 转移 功能 由 ROMI1 实现 ,可 能 转 到 beq jump ori、R- 型 .lw/sw 这 5 种 指令 对 
应 的 微 程序 去 执行 ,beq 和 jump 指令 的 微 程序 都 只 有 一 条 微 指令 ,分 别 存放 在 地 址 0010 和 
0011 中 ;ori 和 R- 型 指令 的 微 程序 都 有 两 条 微 指令 ,其 首 地 址 分 别 为 0100 和 0110;1w/sw 
指令 的 微 程 序 有 4 条 微 指令 , 首 地 址 为 1000, 微 程序 中 有 一 个 分 支 转移 点 ,需要 根据 当前 指 
令 是 lw 还 是 sw 来 决定 1000 处 的 微 指令 执行 后 是 转 到 1010 处 执行 还 是 1001 处 执行 。 

图 5. 37(a) 给 出 的 是 计数 器 法 微 程序 控制 器 的 结构 。 图 中 wwPC 具有 自 增 功能 ,每 来 一 
个 时 钟 自动 加 1。lwy/sw 指令 微 程序 中 的 分 支 功能 由 ROM2 实现 。BrCtr 微 命令 是 在 微 指 
令 字 中 增加 的 转移 控制 字段 ,用 来 控制 下 一 条 微 地 址 的 选择 方式 。BrCtr 的 含义 如 下 。 
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(a) 计数 器 法 微 程序 控制 器 结构 (b) 断定 法 微 程序 控制 器 结构 
图 5.37 表 5.10 中 的 微 程序 的 两 种 实现 方式 











BrCtr 二 00: 转 到 取 指 令 微 程序 首 条 微 指令 执行 。 

BrCtr 二 01: 转 到 由 ROMI1 的 输出 所 指 的 微 指令 执行 。 

BrCtr 一 10: 转 到 由 ROM2 的 输出 所 指 的 微 指令 执行 。 

BrCtr 王 11: 按 顺 序 执行 。 

图 5.37(b) 给 出 的 是 断定 法 微 程序 控制 器 的 结构 。 下 一 条 微 指令 地 址 可 直接 来 自 当前 
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微 指 令 字 的 下 址 字段 ,但 在 某 些 情况 下 需要 对 其 进行 修改 。 例 如 ,lw/sw 指令 微 程序 中 的 分 
支 功能 由 操作 码 IR 二 31:26 记 (对 应 op5~op0) 中 的 op3 对 微 地 址 修改 实现 。 因 为 OP(lw) 
一 100011,OP(Csw) 王 101011, 两 者 的 差别 仅 在 op3。 假 定 1000 处 微 指令 的 下 址 字段 为 
1010 , 则 当 op3 王 0 时 不 需 修改 微 地 址 ; 当 op3 王 1 时 需 将 1010 修改 为 1001, 所 以 ,只 要 将 4 
位 地 址 的 后 2 位 与 op3 进行 “ 异 或 " 即 可 。BrCtr 微 命令 是 在 微 指 令 字 中 增加 的 转移 控制 字 
段 , 用 来 控制 下 条 微 地 址 的 选择 方式 。BrCtr 的 含义 如 下 : 

BrCtr 二 00: 转 到 微 指令 的 下 址 字段 指出 的 微 指令 执行 。 

BrCtr 二 01: 转 到 由 op3 修改 后 的 微 地 址 所 指 的 微 指令 执行 。 

BrCtr 王 10: 转 到 由 ROMI1 的 输出 所 指 的 微 指令 执行 。 

图 5. 37 的 计数 器 法 和 断定 法 中 都 用 ROM 方式 实现 多 分 支 转移 ,ROM1 中 存放 的 是 各 
指令 微 程序 的 首 地 址 ;ROM2 中 只 有 两 个 单元 ,分 别 存 放 1001 和 1010。 断 定 方式 下 微 指令 
长 度 为 22 位 ,计数 器 法 的 微 指令 长 度 为 18 位。 

微 程序 设计 的 思想 给 计算 机 控制 部 件 的 设计 和 实现 技术 带 来 了 巨大 的 影响 。 与 硬 连 线 
设计 相 比 , 它 大 大 降低 了 控制 器 设计 的 复杂 性 ,提高 了 设计 的 标准 化 程度 。 由 于 机 器 指令 的 
执行 过 程 用 微 程序 控制 ,因而 提供 了 很 大 的 灵活 性 ,使 得 设计 的 变更 、 修 改 以 及 指令 系统 的 
扩充 都 成 为 不 太 困难 的 事情 。 它 与 传统 的 软件 设计 有 许多 类 似 之 处 ,但 是 ,由 于 微 程序 相对 
固定 , 且 通 常 不 放 在 主 存 内 , 故 有 可 能 利用 工作 速度 较 高 的 ROM 存放 微 程 序 , 从 而 缩短 微 
程序 的 运行 时 间 。 这 是 一 种 固化 了 的 微 程序 , 称 为 固件 (firmware) 。 

微 程序 控制 器 的 主要 缺点 是 比 相同 或 相近 指令 系统 的 硬 连 线 控制 器 慢 。 因 此 , RISC 
机 大 都 采用 硬 连 线 控制 器 ,而 IA-32 则 采用 了 硬 连 线 和 微 程序 相 结 合 的 方式 来 实现 控制 
逻辑 。 


5.5 异常 和 中 断 处 理 


5.5.1 基本 概念 


在 程序 正常 执行 过 程 中 ,CPU 会 遇 到 一 些 特 殊 情 况 而 无 法 继续 执行 当前 程序 。 这 种 中 
断 程序 正常 执行 的 情况 主要 有 以 下 两 大 类 。 

1. 内 部 异常 

内 部 异常 (exception) 是 指 由 处 理 器 内 部 异常 引起 的 意外 事件 。 根 据 其 发 生 的 原因 又 
分 为 硬 故障 中 断 和 程序 性 异常 。 硬 故障 中 断 是 由 硬 连 线路 出 现 异常 引起 的 ,如 电源 掉 电 , 存 
储 器 线路 错 等 ;程序 性 异常 也 称 软 中 断 ,是 由 CPU 执行 某 个 指令 而 引起 的 发 生 在 处 理 器 内 
部 的 异常 事件 ,也 称 为 例外 。 如 整除 0、 溢出 、 断 点 、 单 步 跟踪 、 访 问 超时 、 非 法 操作 码 、 栈 洲 
出 、 缺 页 ` 地 址 越界 等 。 按 发 生 异 常 的 报告 方式 和 返回 方式 的 不 同 ,内 部 异常 可 分 为 故障 
(fault) 、 自 陷 (trap) 和 终止 (abort) 三 类 。 

1) 故障 

故障 也 称 为 失效 , 它 是 在 引起 故障 的 指令 启动 后 执行 结束 前 被 检测 到 的 一 类 异常 事 
件 。 例 如 ,指令 译 码 时 ,出 现 * 非 法 操作 码 ?; 取 指令 或 数据 时 ,发 生 * 段 不 存在 "“ 缺 页 ?或 “ 保 
护 错 ” ;执行 整 数 除 法 指令 时 ,发 现 * 除 数 为 0” 等。 显然 “ 段 不 存在 "“ 缺 页 等 这 类 异常 处 


理 后 ,已 将 需要 的 段 或 页 面 从 磁盘 调 到 主 存 , 所 以 可 继续 回 到 发 生 故障 的 指令 继续 执行 ,此 
时 , 断 点 为 当前 发 生 故 障 的 指令 ;对 于 “非法 操作 码 ”“ 保 护 错 ”“ 除 数 为 0” 等 ,因为 无 法 通 
过 异常 处 理 程序 恢复 故障 ,因此 不 能 回 到 原 断 点 继续 执行 ,必须 终止 进程 的 执行 ;对 于 浮 点 
除法 “除数 为 0”, 有 不 同 处 理 方式 ,可 将 指令 执行 结果 用 特殊 的 值 ( 如 co 或 NaN) 来 表示 后 继 
续 回 原 断 点 执行 ,也 可 终止 进程 的 执行 。 

2) 自 陷 

自 陷 也 称 为 陷阱 或 陷入 ,与 故障 等 其 他 意外 发 生 的 异常 事件 不 同 ,是 预先 安排 的 一 种 
“异常 "事件 ,就 像 预先 设 定 的 “陷阱 ”一 样 ,首先 通过 某 种 方式 将 CPU 设 定 为 处 于 某 个 特定 
状态 ,在 程序 执行 过 程 中 ,一 旦 某 条 指令 的 执行 发 生 了 相应 状态 所 满足 的 条 件 , 则 CPU 调 
出 特定 的 程序 进行 相应 的 处 理 。 

通常 的 做 法 是 : 事先 在 程序 中 用 一 条 特殊 指令 或 通过 某 种 方式 设 定 特殊 控制 标志 来 人 
为 设置 一 个 “陷阱 ”, 当 执行 到 被 设置 了 “陷阱 ”的 指令 时 ,CPU 在 执行 完 自 陷 指令 后 ,自动 根 
据 不 同 “ 陷 阱 ”类 型 进行 相应 的 处 理 , 然 后 返回 到 自 陷 指 令 的 下 一 条 指令 执行 。 注 意 , 当 自 陷 
指令 是 转移 指令 时 ,并 不 能 返回 到 下 一 条 指令 执行 ,而 是 返回 到 转移 目标 指令 执行 。 

例如 ,在 Intel 80x86 体系 结构 中 ,可 以 执行 指令 STI 使 CPU 处 在 开 中 断 状态 ( 即 中 断 
标志 IF==1), 并 通过 PUSHF/PUSHFD 和 POPF/POPFD 指令 将 CPU 设置 为 跟踪 状态 
( 即 跟 踪 标 志 TF 二 1)。 这 样 ,CPU 便 处 于 单 步 跟踪 状态 (TF=1 且 IF=1) ,此 时 ,每 条 指令 
都 被 设置 成 了 “陷阱 ”,CPU 在 执行 每 条 指令 后 ,都 会 转 去 执行 一 个 特定 的 “ 单 步 跟踪 处 理 程 
序 ”, 该 程序 将 当前 指令 执行 的 结果 显示 在 屏幕 上 。 单 步 跟 踪 处 理 过 程 中 ,CPU 会 自动 把 标 
志 寄 存 器 压 栈 , 然 后 清除 TF 和 If。 这 样 ,在 单 步 跟踪 处 理 时 ,CPU 就 能 以 正常 方式 工作 。 
单 步 处 理 结束 ,返回 到 下 条 指令 执行 之 前 ,再 从 栈 中 取出 标志 ,恢复 TF 和 IF 的 值 ,使 CPU 
回 到 单 步 跟踪 状态 ,这样 , 下 一 条 指令 又 是 自 陷 指令 ,将 被 跟踪 执行 。 如 此 这 样 下 去 ,每 条 指 
令 都 被 跟踪 执行 ,直到 将 TF 和 正 清 零 为 止 。 在 80x86 中 ,用 于 程序 调试 的 “ 断 点 设置 ” 功 
能 也 是 通过 “ 自 陷 ” 方 式 来 实现 的 。 

此 外 ,还 有 系统 调用 指令 、 条 件 自 陷 指 令 ( 如 MIPS 中 的 teq、teqi、tne、tnei 等 一 组 按 条 
件 进入 陷阱 的 指令 ) 等 都 属于 陷阱 指令 ,执行 到 这 些 指令 时 ,无 条 件 或 有 条 件 地 自动 调 出 操 
作 系 统 内 核 程序 进行 执行 。 

3) 终止 

如 果 在 执行 指令 过 程 中 发 生 了 使 机 器 无 法 继续 执行 的 硬件 故障 ,如 电源 掉 电 、 线 路 故障 
等 , 则 程序 将 无 法 继续 执行 ,只 好 终止 ,此 时 , 调 出 中 断 服务 程序 来 重启 系统 。 这 种 异常 与 故 
障 和 自 陷 不 同 , 不 是 由 特定 指令 产生 的 ,而 是 随机 发 生 的 。 

2. 外 部 中 断 

程序 执行 过 程 中 , 若 外 设 完成 任务 或 发 生 某 些 特殊 事件 (如 打印 机 缺 纸 、 定 时 采样 计数 
时 间 到 、 键 盘 缓冲 满 等 ) ,会 向 CPU 发 中 断 (Interrupt) 请 求 ,要 求 CPU 对 这 些 情况 进行 处 
理 。 通 常 , 每 条 指令 执行 完 后 ,CPU 都 会 主动 去 查询 有 没有 中 断 请 求 ,有 的 话 , 则 将 下 一 条 
指令 地 址 作为 断 点 保存 ,然后 转 到 相应 的 中 断 服务 程序 执行 ,结束 后 回 到 断 点 继续 执行 。 

这 种 事件 与 执行 的 指令 无 关 , 由 CPU 外 部 的 IO 发 出 ,所 以 , 称 为 1/O 中 断 或 外 部 中 
断 , 需 要 通过 外 部 中 断 请 求 线 向 CPU 请 求 。 

不 同 的 计算 机 体系 结构 和 教科 书 对 异常 和 中 断定 义 的 内 涵 不 同 。 例 如 ,PowerPC 体系 
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结构 用 异常 表示 各 种 意外 事件 ,而 用 中 断 表 示 控 制 流 被 改变 ; Intel 8086/8088 微 处 理 器 不 
区 分 异常 和 中 断 ,把 两 者 统称 为 中 断 , 由 CPU 内 部 产生 的 异常 称 为 内 中 断 ,通过 中 断 请 求 
线 INTR 和 NMI 从 CPU 外 部 发 出 的 中 断 请 求 为 外 中 断 。 内 中 断 皆 为 不 可 屏蔽 中 断 。 通 过 
INTR 信和 号 线 发 出 的 外 中 断 是 可 屏蔽 中 断 ,而 通过 NMI 信号 发 出 的 是 不 可 屏 项 中 断 。 不 可 
屏蔽 中 断 的 处 理 优 先 级 最 高 ,任何 时 候 只 要 发 生 不 可 屏蔽 中 断 ,都 要 中 止 现行 程序 的 执行 ， 
转 到 不 可 屏蔽 中 断 处 理 程序 执行 。 每 个 中 断 都 有 一 个 类 型 号 ,每 个 中 断 类 型 号 都 对 应 一 个 
中 断 服务 程序 ,其 入 口 地 址 放 在 一 个 专门 的 中 断 向 量 表 中 。 例 如 ,类 型 0 为 “除法 错 ”, 类 型 
2 为 "NMI 中 断 ”, 类 型 15 为 “ 缺 页 等 。 前 32 个 中 断 类 型 (00H~1IFH) 保 留 给 处 理 器 使 用 ， 
剩余 的 可 以 由 用 户 自行 定义 功能 ,通过 执行 INT n 指令 (第 二 字 节 mn 给 出 中 断 类 型 号 : n= 
32 一 255) ,使 CPU 自动 转 到 用 户 编写 的 中 断 服 务 程序 执行 ,INT n 也 称 为 软 中 断 指令 。 

从 80286 微 处 理 器 开始 ,Intel 统一 把 内 中 断 称 为 内 部 异常 ,而 把 外 中 断 称 为 外 部 中 断 。 
为 了 区 分 内 部 异常 和 外 部 中 断 ,本 教材 将 CPU 内 部 异常 事件 称 为 异常 ,而 将 外 部 中 断 事件 
称 为 中 断 。 中 断 是 计算 机 外 设 的 一 种 输入 输出 方式 ,所 以 有 关中 断 的 主要 内 容 放 到 第 8 章 
介绍 。 本 章 后 面 主要 介绍 异常 处 理 。 实 际 上 ,两 者 的 处 理 过 程 和 基本 处 理 方式 是 类 似 的 。 


S.S.2 异常 处 理 过 程 


在 CPU 执行 指令 过 程 中 ,如 果 发 生 了 异常 事件 , 则 CPU 必须 进行 相应 的 处 理 。CPU 
对 异常 的 处 理 过 程 可 分 为 以 下 两 个 步骤 : 保护 断 点 和 程序 状态 ,识别 异常 事件 并 转 异 常 
处 理 。 

1. 保护 断 点 和 程序 状态 

前 面 提 到 ,对 于 不 同 的 异常 事件 ,其 返回 地 址 ( 即 断 点 ) 不 同 。 例 如 ,故障 的 断 点 是 发 生 
故障 的 当前 指令 的 地 址 , 自 陷 的 断 点 则 是 自 陷 指令 后 面 一 条 指令 的 地 址 。 显 然 , 断 点 的 值 由 
异常 类 型 和 发 生 异 常 时 PC 的 值 决定 。 例 如 ,对 于 图 5. 31 的 多 周期 数据 通路 ,如 果 在 执行 
lw/sw 指令 时 发 生 “ 缺 页 ”异常 , 则 说 明 需 要 读 写 的 指令 或 数据 所 在 的 页 面 不 在 主 存 ,需要 操 
作 系 统 内 核 程序 进行 相应 处 理 , 以 便 将 所 需 页 面 调 入 内 存 ,“ 缺 页 ”处 理 结 束 后 ,显然 应 该 回 
到 发 生 缺 页 的 指令 重新 执行 一 遍 ,因而 其 断 点 值 应 该 是 当前 PC 值 减 4。 因 为 ,在 发 现 * 缺 
页 ”时 ,已 在 取 指 令 状 态 执行 了 PC 十 4, 所 以 ,PC 必须 减 4 才能 保证 “ 缺 页 ”异常 处 理 返 回 后 
重新 执行 lw/sw 指令 。 

为 了 能 在 异常 处 理 后 正确 返回 到 原 被 中 断 程序 继续 执行 ,数据 通路 必须 能 正确 计算 断 
点 值 。 假 定 计算 出 的 断 点 值 存放 在 PC 中 , 则 保护 断 点 时 ,只 要 将 PC 送 到 栈 或 特定 的 寄存 
器 中 即 可 。 

为 了 能 够 支持 异常 或 中 断 的 嵌 套 处 理 , 大 多 数 处 理 器 将 断 点 保存 在 栈 中 ,如 80x86 处 理 
器 的 断 点 被 保存 在 栈 中 。 如 果 系 统 不 支持 多 重 中 断 嵌 套 处 理 , 则 可 以 将 断 点 保存 在 特定 寄 
存 器 中 ,而 不 需 送 到 栈 保 存 , 如 MIPS 处 理 器 用 EPC 寄存 器 专门 存放 断 点 。 

因为 异常 处 理 后 可 能 还 要 回 到 原 被 中 断 的 程序 继续 执行 ,所 以 ,被 中 断 时 原 程序 的 状态 
(如 产生 的 各 种 标志 信息 、 允 许 自 陷 标 志 等 ) 都 必须 保存 起 来 。 通 常 每 个 正在 运行 程序 的 状 
态 信息 存放 在 一 个 专门 的 寄存 器 中 ,这 个 专门 寄存 器 统称 为 程序 状态 字 寄 存 器 (PSWR) , 存 
放 在 PSWR 中 的 信息 称 为 程序 状态 字 (Program Status Word, PSW)。 例 如 ,在 80x86 中 ， 
程序 状态 字 寄 存 器 就 是 标志 寄存 器 EFLAGS。 与 返回 地 址 ( 即 断 点 ) 一 样 ,PSW 也 要 被 保 


存 到 栈 或 特定 寄存 器 中 ,在 异常 返回 时 ,将 保存 的 PSW 恢复 到 PSWR 中 。 

2. 识别 异常 事件 并 转 异常 处 理 

在 调 出 异常 处 理 程序 之 前 ,必须 知道 发 生 了 什么 异常 。 一 般 来 说 ,内 部 异常 事件 和 外 部 
中 断 源 的 识别 方式 不 同 , 大 多 数 处 理 器 会 将 两 者 分 开 来 处 理 。 内 部 异常 事件 的 识别 大 多 采 
用 软件 识别 方式 ,而 外 部 中 断 源 则 可 以 采用 软件 识别 或 硬件 识别 方式 。 

软件 识别 方式 是 指 ,CPU 设置 一 个 异常 状态 寄存 器 ,用 于 记录 异常 原因 。 操 作 系统 使 
用 一 个 统一 的 异常 查询 程序 ,该 程序 按 一 定 的 优先 级 顺序 查询 异常 状态 寄存 器 , 先 查 询 到 的 
异常 先 被 处 理 。 例 如 ,MIPS 就 采用 软件 识别 方式 ,CPU 中 有 一 个 cause 寄存 器 ,位 于 地 址 
0x8000 0180 处 有 一 个 专门 的 异常 查询 程序 , 它 通过 查询 cause 寄存 器 来 检测 异常 类 型 , 然 
后 转 到 内 核 中 相应 的 异常 处 理 程序 进行 具体 的 处 理 。 

因为 像 故 障 和 陷阱 之 类 的 内 部 异常 通常 是 在 执行 某 条 指令 时 发 现 的 ,可 以 通过 对 指令 
执行 过 程 中 某 些 条 件 的 判断 来 发 现 是 否 发 生 了 异常 ,而 且 一 旦 发 现 可 以 马上 进行 处 理 , 所 
以 ,内 部 异常 事件 也 可 以 不 通过 专门 的 查询 程序 来 识别 ,而 在 发 现 异常 时 直接 得 到 异常 错误 
代码 ,根据 不 同 的 错误 代码 , 转 到 相应 的 异常 处 理 程序 即 可 。80x86 的 处 理 方式 就 是 这 样 。 

由 于 外 部 中 断 的 发 生 与 CPU 正在 执行 的 指令 没有 必然 联系 ,相对 于 指令 来 说 ,外 部 中 
断 是 随机 的 与 当前 执行 指令 无 关 的 。 所 以 ,并 不 能 根据 指令 执行 过 程 中 的 某 些 现象 来 判断 
是 否 发 生 了 中 断 请 求 。 因 此 ,对 于 外 部 中 断 ,只 能 在 每 条 指令 执行 完 后 、 取 下 条 指令 之 前 去 
查询 是 否 有 中 断 请 求 。 通 常 CPU 通过 采样 对 应 的 中 断 请 求 引 脚 线 来 进行 查询 ,如 果 发 现 
“中 断 请 求 " 线 有 效 , 则 说 明 有 中 断 请 求 ,但 是 到 底 是 哪个 中 断 源 发 出 的 请 求 , 还 需要 进一步 
识别 。 有 关外 部 中 断 源 的 响应 、 识 别 和 中 断 处 理 程序 的 结构 等 内 容 , 在 第 8 章 中 将 详细 
介绍 。 

假定 在 执行 异常 处 理 程序 时 又 发 生 了 新 的 异常 ,怎么 办 ? 在 发 现 异 常 并 转 到 异常 处 理 
程序 的 过 程 中 , 若 在 保存 正在 运行 程序 的 现场 时 又 发 生 新 的 异常 ,那么 ,就 会 因为 要 处 理 新 
的 异常 ,而 把 原来 进程 的 现场 .返回 的 断 点 和 程序 状态 等 破坏 掉 , 因 此 ,应 该 有 一 种 机 制 来 禁 
止 在 响应 并 处 理 异常 时 再 响应 新 的 异常 。 通 常 通过 设置 “中 断 /异常 允许 ”状态 位 (或 中断/ 
异常 允许 ”触发 器 ) 来 实现 。 当 “中 断 /异常 允许 ”状态 位 置 1, 则 为 “ 开 中 断 ” 状 态 ,表示 人 允许 
响应 中 断 / 异 常 ; 若 “中 断 /异常 允许 ”状态 位 被 清 零 , 则 为 “关中 断 ” 状 态 ,表示 不 允许 响应 中 
断 /异常 。 一 般 由 操作 系统 通过 管 态 指令 来 设置 该 位 的 状态 。 例 如 ,在 80x86 体系 结构 中 ， 
可 以 执行 指令 STI 或 CLI, 使 标志 寄存 器 EFLAGS 中 的 I 位 被 设置 为 1 或 清 零 ,使 CPU 
处 在 “ 开 中 断 ” 或 “关中 断 ” 状 态 。 


“5.5.3 带 异 常 处 理 的 处 理 器 设计 


异常 和 中 断 处 理 是 处 理 器 设计 中 最 具 挑战 性 的 任务 之 一 ,为 了 说 明 CPU 如 何 处 理 异 
常 和 中 断 , 本 教材 以 MIPS 为 例 简 单 说 明 带 异常 处 理 的 数据 通路 的 设计 。 

为 简单 起 见 ,MIPS 中 的 断 点 信息 保存 到 一 个 特殊 的 32 位 寄存 器 EPC 中 。 写 人 EPC 
的 断 点 值 可 能 是 正在 执行 中 的 异常 指令 的 地 址 (故障 时 ) ,也 可 能 是 异常 指令 的 下 一 条 指令 
的 地 址 ( 自 陷 )。 前 者 需要 把 PC 的 值 减 4 后 送 到 EPC, 后 者 则 直接 将 PC 送 EPC。 

MIPS 采用 软件 识别 方式 ,用 一 个 专门 的 32 位 寄存 器 (cause) 来 记录 异常 原因 ,异常 查 
询 程序 的 入口 地 址 为 0x8000 0180, 该 异常 查询 程序 将 根据 cause 的 值 判断 发 生 了 何 种 异 
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常 ,然后 根据 异常 类 型 控制 转 到 相应 的 异常 处 理 程序 执行 。 
假定 处 理 器 能 处 理 的 异常 类 型 有 两 种 : 非法 操作 码 (cause=0) 和 溢出 (cause=1), 则 在 
图 5. 31 的 多 周期 数据 通路 中 加 入 相应 的 异常 处 理 后 ,得 到 如 图 5. 38 所 示 的 带 异 常 处 理 多 
下 周期 数据 通路 。 其 中 右 部 加 粗 表示 的 部 件 是 与 异常 处 理 相关 的 部 分 。 
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图 5.38 异常 处 理 的 多 周期 数据 通路 


图 5. 38 中 对 两 个 寄存 器 EPC 和 cause 分 别 加 入 了 以 下 两 个 “ 写 使 能 ”控制 信号 。 

EPCWr: 在 需要 保存 断 点 时 ,该 信号 有 效 ,使 断 点 值 PC 写 人 EPC。 

CauseWr: CPU 发 现 异常 (如 非法 指令 、 洲 出 ) 时 ,该 信号 有 效 , 使 异常 类 型 写 和 人 
cause 中 。 

此 外 ,还 需要 一 个 控制 信号 IntCause 来 选择 将 正确 的 值 写 入 到 cause 中 。 

发 现 异常 后 , 需 将 异常 查询 程序 的 人口 地 址 (MIPS 为 0x8000 0180) 写 入 PC, 因 此 ,图 中 在 
原来 PCSource 控制 的 多 路 选择 器 中 需 增 加 一 路 ,其 输入 为 0x8000 0180, 用 PCSource 二 11 来 控 
制 选择 。 

为 了 支持 图 5. 38 所 示 的 数据 通路 ,必须 对 图 5. 31 所 示 的 数据 通路 对 应 的 控制 器 进行 
修改 。 可 以 在 图 5. 32 所 示 的 有 限 状态 机 中 增加 异常 响应 状态 ,对 每 种 异常 的 响应 处 理 占 一 
个 状态 。 

带 异 常 响应 处 理 的 有 限 状态 机 如 图 5. 39 所 示 。 

图 5. 32 所 示 的 有 限 状 态 机 中 已 有 状态 0 一 状态 11 ,因此 ,将 两 种 异常 处 理 对 应 的 状态 
分 别 用 状态 12 和 状态 13 来 表示 (加 粗 的 两 个 状态 ) 。 
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图 5.39 带 异 常 响应 处 理 的 有 限 状 态 机 示意 图 


(1) 状态 12。“ 非 法 操作 码 ? 异 常 响应 周期 。 若 在 状态 1 进行 指令 译 码 时 发 现 op 字段 
是 一 个 未 定义 的 编码 , 则 进入 状态 12, 其 控制 信号 用 来 控制 完成 以 下 操作 : @ 将 0 送 cause 
寄存 器 ;@PC 减 4 送 EPC;@ 将 0x8000 0180 送 PC。 

(2) 状态 13。“ 溢 出 ?异常 响应 周期 , 当 R- 型 指令 或 工 型 运算 类 指令 执行 后 在 ALU 输 
出 端的 overflow 为 1 时 , 则 进入 状态 13。 其 控制 信号 用 来 控制 完成 以 下 操作 : @ 将 1 送 
cause 寄存 器 ;PC 减 4 送 EPC;@ 将 0x8000 0180 送 PC。 

根据 图 5. 39 所 示 的 有 限 状态 机 不 难 实现 相应 的 控制 逻辑 。 


5.6 本 章 小 结 


本 章 以 MIPS 指令 系统 中 具有 代表 性 的 11 条 指令 作为 实现 目标 ,介绍 了 单 周 期 数据 通 
路 和 多 周期 数据 通路 的 设计 过 程 , 以 及 相应 的 控制 部 件 的 设计 。 主 要 内 容 包括 CPU 的 主 
要 功能 和 内 部 结构 ,指令 的 执行 过 程 . 数 据 通路 的 基本 组 成 .数据 通路 的 定时 、 数 据 通路 中 信 
息 的 流动 过 程 .控制 器 的 实现 方式 、 硬 连 线 控制 器 的 设计 、 微 程序 控制 器 的 设计 .异常 和 中 断 
的 概念 等 。 

CPU 的 基本 功能 是 周而复始 地 执行 指令 ,并 处 理 异 常 和 中 断 。CPU 最 基本 的 部 分 是 
数据 通路 (datapath) 和 控制 单元 (control unit) 。 数 据 通路 中 包含 组 合 逻 辑 单元 和 存储 信息 
的 状态 单元 。 组 合 逻辑 单元 (如 加 法 器 .ALU、 扩 展 器 、 多 路 选择 器 以 及 状态 单元 的 读 操 作 
逻辑 等 ) 用 于 对 数据 进行 处 理 ; 状 态 单元 包括 触发 器 .寄存 器 和 存储 器 等 ,用 于 对 指令 执行 的 
中 间 状 态 或 最 终结 果 进 行 保存 。 控 制 单元 对 取出 的 指令 进行 译 码 ,与 指令 执行 得 到 的 条 件 


计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





码 或 当前 机 器 的 状态 .时 序 信号 等 组 合 , 生 成 对 数据 通路 进行 控制 的 控制 信号 。 

指令 执行 过 程 主要 包括 取 指 、 译 码 、 取 数 、 运 算 、 存 结果 、 查 中 断 。 通 常 把 取出 并 执行 一 
条 指令 的 时 间 称 为 指令 周期 , 它 由 若干 个 机 器 周期 或 直接 由 若干 个 时 钟 周期 组 成 。 现 代 计 
算 机 已 经 没有 机 器 周期 的 概念 ,因此 ,现代 计算 机 的 每 个 指令 周期 直接 由 若干 个 时 钟 周期 组 
成 。 时 钟 信 号 是 CPU 中 用 于 控制 信号 同步 的 信号 。 

每 条 指令 的 功能 不 同 ,因此 每 条 指令 执行 时 数据 在 数据 通路 中 所 经 过 的 部 件 和 路 径 也 
可 能 不 同 。 但 是 ,每 条 指令 在 取 指令 阶段 都 一 样 。 

根据 不 同 的 控制 描述 方式 ,控制 单元 有 两 种 不 同 的 实现 方式 。 硬 连 线 控 制 器 将 指令 执 
行 过 程 中 每 个 时 钟 周期 所 包含 的 控制 信号 取 值 组 合 看 成 一 个 状态 ,每 来 一 个 时 钟 ,控制 信和 号 
会 有 一 组 新 的 取 值 ,也 就 是 一 个 新 的 状态 ,这 样 , 所 有 指令 的 执行 过 程 就 可 以 用 一 个 有 限 状 
态 转 换 图 来 描述 。 实 现时 ,用 一 个 组 合 逻辑 电路 (一 般 为 PLA 电路 ) 来 生成 控制 信号 ,用 一 
个 状态 寄存 器 实现 状态 之 间 的 转换 ; 微 程序 控制 器 将 指令 执行 过 程 中 每 个 时 钟 周期 所 包含 
的 控制 信号 取 值 组 合 看 成 是 一 个 0/1 序列 ,每 个 控制 信号 对 应 一 个 微 命令 ,控制 信号 取 不 同 
的 值 ,就 发 出 不 同 的 微 命令 。 这 样 ,若干 微 命令 组 合成 一 个 微 指令 ,每 条 指令 所 包含 的 动作 
就 由 若干 条 微 指令 来 完成 。 每 条 指令 执行 时 , 先 找 到 对 应 的 第 一 条 微 指令 ,然后 按照 特定 的 
顺序 取出 后 续 的 微 指令 执行 。 每 来 一 个 时 钟 , 执 行 一 条 微 指令 。 实 现时 ,每 条 指令 对 应 的 微 
指令 序列 事先 存放 在 一 个 只 读 存储 器 ( 称 为 控制 存储 器 ,简称 控 存 ) 中 ,用 一 个 PLA 电路 或 
ROM 来 生成 每 条 指令 对 应 的 微 程序 的 第 一 条 微 指令 地 址 ,用 相应 的 微 程序 定 序 器 来 控制 
微 指 令 执行 流程 。 微 程序 定 序 器 的 实现 有 计数 器 法 和 断定 法 ( 即 下 址 字段 法 ) 两 种 。 

异常 (内 中 断 ) 也 被 称 为 程序 性 中 断 , 指 CPU 内 部 在 执行 某 条 指令 时 发 生 的 程序 异常 
或 硬件 异常 ,有 故障 、 陷 阱 和 终止 3 种 类 型 。 故 障 由 某 条 正在 执行 的 指令 产生 ,如 “溢出 ” 
“除数 为 0”“ 非 法 操作 码 ”“ 缺 页 " “地址 越界 "“ 访 问 越权 >“ 段 不 存在 "“ 栈 溢出 ?等 ,有 
些 故 障 修复 后 程序 可 以 继续 执行 下 去 ,有 些 故 障 不 能 修复 ,只 能 终止 发 生 异 常 的 程序 的 执 
行 。 陷 阱 是 预先 安排 的 一 种 “异常 "事件 ,例如 , 断 点 设置 , 单 步 跟 踪 、 系 统 调用 、 条 件 自 陷 等 
引起 的 陷阱 。 终 止 是 严重 的 硬件 故障 ,一 旦 发 生 只 能 终止 整个 系统 的 运行 ,重启 系统 。 外 部 
中 断 是 外 设 或 它 机 通过 中 断 请 求 线 向 CPU 提出 的 处 理 请 求 ,与 指令 无 关 , 是 一 种 IO 
方式 。 


习 题 
1. 给 出 以 下 概念 的 解释 说 明 。 

指令 周期 机 器 周期 数据 通路 时 序 信 号 
控制 单元 执行 部 件 操作 元 件 状态 元 件 
多 路 选择 器 扩展 器 定时 方式 边沿 触发 
程序 计数 器 (PC) 指令 寄存 器 (IR) 指令 译 码 器 (ID) 时 钟 周 期 
转移 目标 地 址 控制 信号 硬 连 线 控制 器 微 程序 控制 器 
控制 存储 器 微 代码 微 指令 微 程 序 

固件 异常 中 断 自 陷 

异常 处 理 程序 异常 /中 断 允许 位 关中 断 开 中 断 


2. 简单 回答 下 列 问题 。 


中 央 处 理 器 


(1) CPU 的 基本 组 成 和 基本 功能 各 是 什么 ? 

(2) 取 指 令 部 件 的 功能 是 什么 ? 

(3) 控制 器 的 功能 是 什么 ? 

(4) 为 什么 对 存储 器 按 异 步 方 式 进行 读 写 时 需要 WMFC 信号 ? 按 同步 方式 访问 存储 器 时 ,CPU 如 何 
实现 存储 器 读 写 ? 

(5) 单 周期 处 理 器 的 CPI 是 多 少 ? 时 钟 周期 如 何 确 定 ? 为 什么 单 周期 处 理 器 的 性 能 差 ? 单 周 期 方式 
下 ,在 一 个 指令 周期 内 某 个 部 件 能 否 被 重复 使 用 多 次 ? 为 什么 ? 

(6) 多 周期 处 理 器 的 设计 思想 是 什么 ? 每 条 指令 的 CPI 是 否 相同 ? 为 什么 在 一 个 指令 周期 内 某 个 部 
件 可 被 重复 使 用 ? 

(7) 在 控制 逻辑 设计 方法 上 , 单 周 期 处 理 器 和 多 周期 处 理 器 的 差别 是 什么 ? 

(8) 硬 连 线 控制 器 和 微 程序 控制 器 的 特点 各 是 什么 ? 

(9) 为 什么 CISC 大 多 用 微 程序 控制 器 实现 ,RISC 大 多 用 硬 连 线 控制 器 实现 ? 

(10) 水 平 型 微 指令 和 垂直 型 微 指令 的 基本 概念 和 优 缺 点 是 什么 ? 

(11) CPU 检测 内 部 异常 和 外 部 中 断 的 方法 有 什么 不 同 ? 

3. 图 5.7 中 假定 总 线 传输 延迟 和 ALU 运算 时 间 分 别 是 20ps 和 200ps, 寄 存 器 建立 时 间 为 10ps ,寄存 
器 保持 时 间 很 小 ,可 忽略 不 计 ,寄存 器 的 锁 存 延迟 (Clk-to-Q time) 为 4ps, 控 制 信号 生成 的 延迟 时 间 (Clk- 
to-signal time) 为 7ps, 三 态 门 接 通 时 间 为 3ps, 则 从 当前 时 钟 到 达 开 始 算 起 ,完成 以 下 操作 的 最 短 时 间 是 
多 少 ? 

(1) 将 数据 从 一 个 寄存 器 传送 到 另 一 个 寄存 器 。 总 线 A 总 线 B 

(2) 将 程序 计数 器 PC 加 1。 介 

4. 图 5. 40 给 出 了 某 CPU 内 部 结构 的 一 部 分 ,MAR 和 MDR 



























































直接 连 到 存储 器 总 线 (图 中 省 略 ) 。 在 两 个 总 线 之 间 的 所 有 数据 传 MDR | -| 
送 都 需 经 过 算术 逻辑 部 件 ALU。ALU 的 部 分 控制 信号 及 其 功能 
如 下 : MAR [一 一 一 | 
MOVa:  F=A; MOVb: F=B; PC 人 全 | 
atl:  F=Atl; b+l:  F=B+1 
a-l: F-A-l; b-l:  F-B-1 SB | 
其 中 A 和 B 是 ALU 的 输入 ,F 是 ALU 的 输出 。 假 定 该 CPU 的 指 Ee 
令 系统 中 调用 指令 CALL 占 两 个 字 , 第 一 个 字 是 操作 码 ,第 二 个 字 A B 
给 出 子 程序 的 起 始 地 址 ,返回 地 址 保存 在 主 存 的 栈 中 ,用 SP( 栈 指示 AYU 
器 ) 指 向 栈 顶 ,存储 器 按 字 编 址 ,每 次 按 同 步 方式 从 主 存 读 取 一 个 F 
字 , 请 写 出 读 取 并 执行 CALL 指令 所 要 求 的 控制 信号 序列 (提示 : ~ 
当前 指令 地 址 已 在 PC 中 )。 图 5.40 题 4 图 示 


5. 假定 某 计算 机 字 长 16 位 ,CPU 内 部 结构 如 图 5. 7 所 示 ， 
CPU 和 存储 器 之 间 采 用 同步 方式 通信 , 按 字 编 址 。 指 令 采 用 定 长 指令 字 格 式 ,由 两 个 字 组 成 ,第 一 个 字 指 
明 操 作 码 和 寻 址 方式 ,第 二 个 字 包含 立即 数 imm16。 若 一 次 存储 器 访问 所 花 时 间 为 2 个 CPU 时 钟 周期 ， 
每 次 存储 器 访问 存 取 一 个 字 , 取 指令 阶段 第 二 次 访 存 将 imm16 取 到 MDR 中 ,请 写 出 下 列 指令 在 指令 执行 
阶段 (不 考虑 取 指 令 阶 段 ) 的 控制 信号 序列 ,并 说 明 需 要 几 个 时 钟 周期 。 

(1) 将 立即 数 imm16 加 到 寄存 器 R1 中。 即 : RLR1]<-RLR1] 二 imml6 。 

(2) 将 地 址 为 imml6 的 存储 单元 的 内 容 加 到 寄存 器 R1 中 。 即 : RLR1]<-RLR1] 十 MLimml6] 。 

(3) 将 存储 单元 imm16 的 内 容 作为 地 址 所 指 的 存储 单元 的 内 容 加 到 寄存 器 R1 中 。 此 时 ,imml6 为 间 
接地 址 。 即 : RLR1]<-RLR1] 二 MLM[Limml16]]。 
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6. 假定 图 5. 22 单 周 期 数据 通路 对 应 的 控制 逻辑 发 生 错误 ,使 得 控制 信号 RegWr、 RegDst、 Branch、 
MemWr、ExtOp、R-type 中 某 一 个 在 任何 情况 下 总 是 为 0, 则 该 控制 信号 为 0 时 哪些 指令 不 能 正确 执行 ? 
要 求 分 别 讨论 。 

7. 假定 图 5. 22 单 周 期 数据 通路 对 应 的 控制 逻辑 发 生 错 误 , 使 得 控制 信号 RegWr、 RegDst、 Branch、 
MemWr、ExtOp、R-type 中 某 一 个 在 任何 情况 下 总 是 为 1, 则 该 控制 信号 为 1 时 哪些 指令 不 能 正确 执行 ? 
要 求 分 别 讨论 。 

8. 要 在 MIPS 指令 集中 增加 一 条 swap 指令 ,可 以 有 两 种 做 法 。 一 种 做 法 是 采用 伪 指 令 方 式 ( 即 软件 
方式 ) ,这 种 情况 下 , 当 执 行 到 swap 指令 时 ,用 若干 条 已 有 指令 构成 的 指令 序列 来 代替 实现 ; 另 一 种 做 法 是 
直接 改动 硬件 来 实现 swap 指令 ,这 种 情况 下 , 当 执行 到 swap 指令 时 , 则 可 在 CPU 上 直接 执行 。 

(1) 写 出 用 伪 指令 方式 实现 “swap rs, rt 时 的 指令 序列 (提示 : 伪 指 令 对 应 的 指令 序列 中 不 能 使 用 其 
他 额外 寄存 器 ,以 免 破坏 这 些 寄存 器 的 值 ) 。 

(2) 假定 用 硬件 实现 swap 指令 时 会 使 每 条 指令 的 执行 时 间 增 加 10%, 则 swap 指令 要 在 程序 中 占 多 
大 的 比例 才 值得 用 硬件 方式 来 实现 ? 

9. 假定 图 5. 31 多 周期 数据 通路 对 应 的 控制 逻辑 发 生 错误 ,使 得 控制 信号 PCWr、MemtoReg、IRWr、 
RegWr、BrWr、MemWr、PCWrCond、R-type 中 某 一 个 在 任何 情况 下 总 是 为 0, 则 该 控制 信号 为 0 时 哪些 指 
令 不 能 正确 执行 ? 要 求 分 别 讨论 。 

10. 假定 图 5. 31 多 周期 数据 通路 对 应 的 控制 逻辑 发 生 错误 ,使 得 控制 信号 PCWr、MemtoReg、IRWr、 
RegWr、BrWr、MemWr、PCWrCond、R-type 中 某 一 个 在 任何 情况 下 总 是 为 1, 则 该 控制 信号 为 1 时 哪些 指 
令 不 能 正确 执行 ? 要 求 分 别 讨论 。 

11. 假定 有 一 条 MIPS 伪 指 令 “Bemp $t，$t2，$t3”, 其 功能 是 实现 对 两 个 主 存 块 数据 的 比较 , $ 世 
和 $t2 中 分 别 存放 两 个 主 存 块 的 首 地 址 , $t3 中 存放 数据 块 的 长 度 , 每 个 数据 占 4 个 字 节 , 若 所 有 数据 都 
相等 , 则 将 0 置 人 $t; 否 则 ,将 第 一 次 出 现 不 相等 时 的 地 址 分 别 置 入 在 $tl 和 $t2 并 结束 比较 。 若 $4 
和 $t5 是 两 个 空闲 寄存 器 ,请 给 出 实现 该 伪 指 令 的 指令 序列 ,并 说 明 在 类 似 于 图 5. 31 所 示 的 多 周期 数据 
通路 中 执行 该 伪 指令 时 要 用 多 少时 钟 周期 。 

12. 某 计算 机 字 长 16 位 ,标志 寄存 器 Flag 中 的 ZF、SF 和 OF 分 别 是 零 标志 、 符 号 标志 和 溢出 标志 , 采 
用 双 字 节 定 长 指令 字 。 假 定 该 计算 机 中 有 一 条 Bgt( 大 于 零 转 移 ) 指令 ,其 指令 格式 为 : 第 一 个 字 节 指明 操 
作 码 和 寻 址 方式 ,第 二 个 字 节 为 偏 移 地 址 imm8 ,其 功能 如 下 : 

车 (ZF 十 (SF@BOF)==0), 则 PC 一 PC 十 2 十 immg8 ,否则 PC 一 PC 十 2。 

完成 如 下 要 求 并 回答 问题 : 

(1) 该 计算 机 存储 器 的 编 址 单位 是 什么 ? 

(2) 画 出 实现 Bgt 指令 的 数据 通路 。 

13. 对 于 某 个 MIPS 多 周期 处 理 器 ,假定 将 访问 数据 的 过 程 分 成 两 个 时 钟 周期 , 则 可 使 时 钟 频率 从 
4.8GHz 提高 到 5.6GHz, 但 这 样 会 使 得 lw 和 sw 指令 增加 时 钟 周期 数 。 已 知 基准 程序 CPUint 2000 中 各 
类 指令 的 频率 为 : Load 一 25% ,Store 一 10% ,Branch 一 11% ,Jump 一 2% ,ALU 一 52%。 那 么 ,以 基准 程序 
CPUint 2000 为 标准 ,处 理 器 时 钟 频率 提高 后 的 性 能 提高 了 多 少 ? 若 将 取 指 令 过 程 再 分 成 两 个 时 钟 周期 ， 
则 可 进一步 使 时 钟 频率 提高 到 6.4GHz, 此 时 ,时 钟 频率 的 提高 是 否 也 能 带 来 处 理 器 性 能 的 提高 ? 为 什么 ? 

14. 假设 MIPS 指令 系统 中 有 一 条 工 型 指令 “Bgt Rs,Rt,imm16”, 其 功能 如 下 : 

若 Rs>Rt, 则 PC 二 PC 十 4 十 imm16X4, 否 则 PC 一 PC 十 4。 

假定 ALU 能 产生 ZF( 零 标志 )、SF( 符 号 标志 ) 和 OF( 溢 出 标志 )3 个 标志 的 输出 ,请 在 图 5. 31 所 示 的 
多 周期 数据 通路 中 增加 实现 Bgt 指令 的 数据 通路 以 及 相应 的 控制 信号 ,并 对 表 5.9 进行 相应 的 修改 , 写 出 
该 指令 对 应 的 微 程序 。( 提 示 : 只 有 一 条 微 指令 ,可 参照 beq 指令 实现 .) 

15. 假定 微 程序 控制 器 的 控 存 容量 为 1024X48 位 , 微 程序 可 在 整个 控 存 内 实现 转移 ,反映 所 有 指令 执 
行 状态 转换 的 有 限 状 态 机 中 有 4 个 分 支点 ,采用 水 平 型 微 指令 格式 ,并 使 用 断定 法 确定 下 一 条 微 地 址 , 即 





微 地 址 由 专门 的 下 址 字段 确定 。 请 设计 微 指 令 的 格式 ,说 明 各 字段 的 含义 和 位 数 ,并 对 转移 控制 字段 进行 
编码 。 

16. 对 于 多 周期 CPU 的 异常 和 中 断 处 理 , 回 答 以 下 问题 : 

(1) 对 于 除数 为 0、 溢 出、 无 效 指令 操作 码 .无效 指令 地 址 、 无 效 数据 地 址 、 缺 页 、 访 问 越权 和 外 部 中 断 ， 
CPU 在 哪些 指令 的 哪个 时 钟 周期 能 分 别 检测 到 这 些 异 常 或 中 断 ? 

(2) 在 检测 到 某 个 异常 或 中 断后 ,CPU 通常 要 完成 哪些 工作 ? 简要 说 明 CPU 如 何 完成 这 些 工作 。 








第 < 章 
0 指令 流水 线 


第 5 章 介 绍 的 单 周 期 处 理 器 和 多 周期 处 理 器 的 指令 执行 都 是 采用 串 行 方式 。 串 行 方 
式 下 ,CPU 总 是 在 执行 完 一 条 指令 后 才 取出 下 一 条 指令 执行 。 显 然 , 这 种 串 行 方式 没有 
充分 利用 执行 部 件 的 并 行 性 ,因而 指令 执行 效率 低 。 与 现实 生活 中 的 许多 情况 一 样 , 指 
令 的 执行 也 可 以 采用 流水 线 方式 ,将 多 条 指令 的 执行 相互 重 倒 起 来 ,以 提高 CPU 执行 指 
令 的 效率 。 

本 章 主要 介绍 指令 流水 线 的 基本 概念 、 流 水 线 数据 通路 和 控制 器 的 实现 ,指令 流水 线 中 
各 种 冲突 (冒险 ) 现 象 及 其 解决 方法 ,并 简要 介绍 一 些 高 级 流水 线 技术 。 


6.1 流水 线 概述 


6.1.1 流水 线 的 执行 效率 


一 条 指令 的 执行 过 程 可 被 分 成 若干 个 阶段 ,每 个 阶段 由 相应 的 功能 部 件 完 成 。 如 果 将 
各 阶段 看 成 相应 的 流水 段 , 则 指令 的 执行 过 程 就 构成 了 一 条 指令 流水 线 。 例 如 ,假定 一 条 指 
令 流 水 线 由 如 下 5 个 流水 段 组 成 。 

(1) 取 指 令 (IF): 从 cache 或 主 存 取 指 令 。 

(2) 指令 译 码 (ID): 产生 指令 执行 所 需 的 控制 信号 。 

(3) 取 操 作 数 (OF): 读 取 存储 器 操作 数 或 寄存 器 操作 数 。 

(4) 执行 (EX): 对 操作 数 完成 指定 操作 。 

(5) 写 回 (WB): 将 操作 数 写 回 存储 器 或 寄存 器 。 

进入 流水 线 的 指令 流 , 由 于 后 一 条 指令 的 第 i 步 与 前 一 条 指令 的 第 i 十 1 步 同 时 进行 ， 
从 而 使 一 串 指 令 总 的 完成 时 间 大 为 缩短 。 如 图 6. 1 所 示 ,在 理想 状态 下 ,完成 4 条 指令 的 执 
行 只 用 8 个 时 钟 周期 ,若是 非 流 水 线 的 串 行 执行 处 理 , 则 需要 20 个 时 钟 周期 。 

从 图 6.1 可 看 出 ,理想 情况 下 ,每 个 时 钟 周 期 都 有 一 条 指令 进入 流水 线 ,每 个 时 钟 周期 
都 有 一 条 指令 完成 ,每 条 指令 的 时 钟 周 期 数 ( 即 CPI) 都 为 1。 

为 了 更 加 清楚 地 了 解 流水 线 的 执行 效率 ,下 面 用 一 个 例子 来 比较 流水 线 处 理 器 和 单 周 
期 处 理 器 的 指令 执行 情况 。 

对 于 第 5 章 给 定 的 具有 11 条 指令 的 单 周 期 处 理 器 (其 数据 通路 见 图 5. 22) ,考虑 最 复 
杂 的 lw 指令 的 执行 情况 。 假 定 lw 指令 的 5 个 阶段 所 花 的 操作 时 间 分 别 如 下 。Q@ 取 指 : 
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指令 2 3 4 5 6 7 8 “时钟 
1 IF ID | OF | EX | WB 

ih IF | ID OF | EX | WB 

办 IF ID | OF | EX | WB 

i IF ID | OF | EX | WB 























6.1 一 个 5 段 指令 流水 线 


200ps; @ 寄 存 器 读 : 50ps; @ALU 操作 : 100ps; @ 存 储 器 读 : 200ps; @ 寄 存 器 写 : 50ps。 
不 考虑 控制 单元 .PC 访问 、 信 号 传递 等 延迟 ,lw 指令 的 总 执行 时 间 为 600ps。 

流水 线 设 计 的 原则 是 : 指令 流水 段 个 数 以 最 复杂 指令 所 用 的 功能 段 个 数 为 准 ;流水 段 
的 长 度 以 最 复杂 的 操作 所 花 时 间 为 准 。 考 虑 实现 第 5 章 所 述 的 同样 11 条 指令 的 流水 线 处 
理 器 ,按照 以 上 流水 线 设 计 原 则 , 则 该 流水 线 处 理 器 共有 5 个 流水 段 ,每 个 流水 段 的 长 度 为 
200ps, 所 以 ,每 条 指令 的 执行 时 间 为 lns, 反 而 比 串 行 执行 时 增加 了 400ps, 因 此 流水 线 方式 
并 不 能 缩短 一 条 指令 的 执行 时 间 。 但 是 ,对 于 整个 程序 来 说 ,流水 线 方式 可 以 大 大 增加 指令 
执行 的 吞吐 率 。 若 流水 段 数 为 M, 每 个 流水 段 的 执行 时 间 为 工 , 则 N 条 指令 的 执行 总 时 间 
为 (M 十 N 一 1)XT。 例 如 ,对 于 上 述 11 条 指令 的 5 段 流水 线 的 例子 ,假定 某 程序 有 N 条 指 
令 ,在 不 考虑 任何 其 他 额外 开销 和 冲突 的 情况 下 , 单 周 期 处 理 器 所 用 的 时 间 为 NX600ps, 而 
流水 线 处 理 器 所 用 时 间 为 (4 十 N) X200ps。 当 N 很 大 时 ,流水 线 方式 吞吐 率 是 串 行 执行 方 
式 的 3 倍 。 显然, 如果 每 个 功能 段 划 分 均匀 ,使 得 执行 时 间 大 致 相等 的 话 , 提 高 倍数 应 为 5， 
即 为 流水 段 的 个 数 。 


6.1.2 适合 流水 线 的 指令 集 将 征 


具有 什么 特征 的 指令 集 有 利于 实现 指令 流水 线 呢 ? 

首先 ,指令 长 度 应 尽量 一 致 。 这 样 ,有 利于 简化 取 指 令 和 指令 译 码 操作 ,例如 ,MIPS 指 
令 都 是 32 位 ,每 条 指令 占 4 个 存储 单元 ,因此 ,每 次 取 指 令 都 是 读 取 4 个 单元 , 且 下 址 计算 
也 方便 ,只 要 PC 十 4 即 可 ;而 80x86 指令 从 1 字 节 到 15 字 节 不 等 ,使 取 指 令 部 件 极其 复杂 ， 
取 指 令 所 花 时 间 也 长 短 不 一 ,而 且 也 不 利于 指令 译 码 。 

其 次 ,指令 格式 应 尽量 规整 ,尽量 保证 源 寄存 器 的 位 置 相 同 。 这 样 ,有 利于 在 指令 未 知 
时 就 可 取 寄 存 器 操作 数 。 例 如 ,MIPS 指令 格式 中 , 源 操作 数 寄存 器 Rs 和 Rt 的 位 置 总 是 分 
别 固定 在 IR<25:21 之 和 IR 二 20:16 放 ,在 指令 译 码 的 同时 就 可 读 取 寄存 器 Rs 和 Rt 中 的 
内 容 。 若 源 操 作 数 寄存 器 的 位 置 随 指令 不 同 而 不 同 , 则 必须 先 译 码 后 才能 确定 指令 中 各 寄 
存 器 编号 的 位 置 ,因此 ,从 寄存 器 取 数 的 工作 就 不 能 提前 到 和 译 码 操作 同时 进行 。 

第 三 ,采用 装 入 /存储 型 指令 风格 ,可 以 保证 除 Load/Store 指令 外 的 其 他 指令 (如 运算 
指令 ) 都 不 访问 存储 器 ,这 样 ,可 把 Load/Store 指令 的 地 址 计算 和 运算 指令 的 执行 步骤 规整 
在 同一 个 周期 中 ,因此 ,有 利于 减少 操作 步骤 ,规整 流水 线 。 像 在 IA-32 之 类 的 非 装 入 /存储 
型 体系 结构 中 ,运算 类 指令 的 操作 数 可 以 是 存储 器 数据 ,这 样 ,在 指令 执行 过 程 中 ,需要 有 存 
储 器 地 址 计算 、 存 储 器 访问 和 运算 等 ,因而 这 类 指令 的 执行 要 多 出 一 些 功 能 段 ,与 简单 指令 
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的 功能 段 划分 相差 很 大 ,不 利于 流水 线 的 规划 。 

此 外 ,数据 和 指令 在 存储 器 中 要 “对 齐 ” 存 放 。 这 样 , 有 利于 减少 访 存 次 数 ,使 所 需 数据 
在 一 个 流水 段 内 就 能 从 存储 器 中 得 到 。 

总 之 ,规整 ,简单 和 一 致 等 特性 有 利于 指令 的 流水 线 执行 。 


6.2 流水 线 处 理 器 的 实现 


为 便于 和 单 周期 处 理 器 、 多 周期 处 理 器 比较 ,假定 后 面 介绍 的 流水 线 处 理 器 的 实现 目标 
也 是 第 5 章 提 出 的 11 条 MIPS 指令 。 以 下 主要 介绍 支持 该 11 条 指令 的 流水 线 数 据 通路 和 
控制 器 的 实现 。 


6.2.1 每 条 指令 的 流水 段 分 析 


指令 流水 线 设计 的 第 一 步 是 要 对 每 条 指令 的 执行 过 程 进行 分 析 , 以 确定 流水 线 每 个 功 
能 段 的 功能 和 执行 时 间 。 

每 条 指令 前 两 个 功能 段 都 一 样 ,它们 的 功能 如 下 。Ifetch: 取 指 并 计算 PC 十 4; 
Reg/ Dec: 寄存 器 取 数 并 译 码 。 后 面 的 功能 段 随 各 指令 功能 的 不 同 而 不 同 。 

1，R- 型 指令 功能 段 划分 

R- 型 指令 都 涉及 在 ALU 中 对 Rs 和 Rt 内 容 进行 运算 ,最 终 把 ALU 的 运算 结果 送 目的 
寄存 器 Rd。 像 add 和 sub 等 指令 还 要 判断 结果 是 否 溢出 ,只 有 不 溢出 时 才 写 结果 到 Rd, 否 
则 转 异 常 处 理 程序 执行 。 

根据 R- 型 指令 的 功能 ,对 照 第 5 章 多 周期 数据 通路 设计 ,很 容易 给 出 R- 型 指令 的 功能 
段 划分 。 如 图 6. 2 所 示 ,在 Ifetch 和 Reg/Dec 两 个 公共 功能 段 后 ,其 余 的 是 : Exec 功能 段 ， 
用 于 在 ALU 中 计算 ;Write 功能 段 ,用 于 将 ALU 中 的 计算 结果 写 回 寄 存 器 。 


时 钟 周期 | 1 1 2 3 | 4 1 


功能 | Ifetch | Reg/Dec | Exec Write 

















图 6.2 R- 型 指令 的 功能 段 划分 


2. 工 型 运算 类 指令 功能 段 划分 

工 型 带 立即 数 的 运算 类 指令 都 涉及 对 16 位 立即 数 进行 符号 扩展 或 零 扩展 ,然后 和 Rs 
的 内 容 进行 运算 ,最终 把 ALU 的 运算 结果 送 目的 寄存 器 Rt。 显 然 , 工 型 运算 类 指令 的 功能 
段 划分 与 R- 型 指令 相同 。 

3. Iw 指令 功能 段 划分 

lw 指令 的 功能 为 RLRt]<-M[R[Rs] 十 SignExt(imm16)]。 其 功能 段 的 划分 如 图 6. 3 
所 示 , 除 公共 的 两 个 功能 段 外 ,其 余 的 是 : Exec 功能 段 ,用 于 在 ALU 中 计算 地 址 ;Mem 功 
能 段 ,用 于 从 存储 器 中 读数 据 ; Write 功能 段 ,用 于 将 数据 写 人 寄存器。 

4. sw 指令 功能 段 划分 

sw 指令 的 功能 为 MLRLRs] 十 SignExt(imm16)]<-RLRt], 即 把 寄存 器 内 容 写 和 存储 器 
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功能 段 | Ifetch | Reg/Dec | Exec | Mem | Write | 





图 6.3 lw 指令 的 功能 段 划 分 


中 ,与 lw 指令 相 比 , 少 了 一 步 写 寄存 器 的 工作 ,其 功能 段 划分 如 图 6.4 所 示 。 其 中 ,后 面 两 
个 功能 段 的 功能 是 ,Exec 用 于 在 ALU 中 计算 地 址 ;Mem 用 于 将 数据 写 人 存储 器 中 。 





功能 段 Ifetch | Reg/Dec | Exec | Mem | 








图 6.4 sw 指令 的 功能 段 划 分 


5. beq 指令 功能 段 划 分 

beq 指令 的 功能 为 if(R[Rs]==R[LRt]) then PC<-PC 十 4 十 (SignExt(imm16) X4) else 
PC< PC 十 4。 除 了 前 面 两 个 公共 功能 段 外 ,其 后 各 功能 段 可 以 划分 为 : Exec 功能 段 , 用 于 
在 ALU 中 做 减法 以 比较 是 否 相 等 ,同时 用 一 个 加 法 器 计算 转移 地 址 ; WrPC 功能 段 ,用 于 
在 比较 相等 的 情况 下 将 转移 目标 地 址 写 到 PC 中 。 因 为 写 入 PC 的 操作 (WrPC) 比 存储 器 
访问 操作 (Mem) 的 时 间 短 ,所 以 ,可 以 将 功能 段 WrPC 向 功能 段 Mem 靠 , 即 最 后 的 功能 段 
用 Mem 表示 。 因 此 ,beq 的 功能 段 划分 类 似 于 sw 指令 ,如 图 6.4 所 示 。 

6. j 指令 功能 段 划分 

j 指令 是 无 条 件 转移 指令 ,其 功能 是 直接 将 目标 地 址 送 PC 中 。 所 以 ,其 功能 段 的 划分 
很 简单 ,除了 两 个 公共 的 功能 段 外 ,就 只 有 一 个 功能 段 WrPC, 其 操作 时 间 比 Exec 段 时 
间 短 。 

从 以 上 对 各 指令 功能 段 的 分 析 可 看 出 ,最 复杂 的 是 lw 指令 , 它 有 5 个 功能 段 ,其 他 指令 
都 可 以 通过 加 入 “ 空 ” 功 能 段 来 向 lw 指令 靠 齐 。 

在 插入 “ 空 ” 段 时 ,应 遵循 以 下 两 个 原则 : @ 每 个 功能 部 件 每 条 指令 只 能 用 一 次 (如 寄存 
器 写 口 不 能 用 两 次 或 以 上 );@ 每 个 功能 部 件 必 须 在 相同 的 阶段 被 使 用 (如 寄存 器 写 口 总 是 
在 第 5 阶段 被 使 用 ) 。 

因此 ,R- 型 指令 、 工 型 运算 类 指令 需 在 Write 之 前 加 一 个 空 的 "Mem” 段 ,使 得 其 Write 
段 和 lw 指令 的 Write 对 齐 ,都 在 第 5 段 ;sw 指令 和 beq 指令 在 第 4 个 功能 段 后 加 一 个 空 的 
“Write” 段 ;j 指令 则 在 后 面 添加 两 个 空 段 “<Mem” 和 ”Write”。 这 样 , 所 有 指令 都 有 5 个 功能 
段 。 因 此 ,该 处 理 器 的 指令 流水 线 可 以 设计 成 5 个 流水 段 。 


6.2.2 流水 线 数 据 通 路 的 设计 


根据 对 11 条 指令 的 分 析 , 可 以 得 到 执行 这 11 条 指令 的 5 段 流水 线 数据 通路 基本 框架 ， 
如 图 6.5 所 示 。 

在 图 6. 5 所 示 的 流水 线 数据 通路 中 ,每 条 指令 的 执行 都 经 历 5 个 流水 段 : IF、ID、Ex、 
Mem 和 Wr, 每 个 流水 段 都 在 不 同 的 功能 部 件 中 执行 。 流 水 段 之 间 有 一 个 流水 段 寄 存 器 , 例 
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图 6.5 五 段 流水 线 数据 通路 基本 框架 


如 ,IF/ID 寄存 器 是 介 于 IF 段 和 ID 段 之 间 的 寄存 器 。 每 个 流水 段 寄存 器 用 来 存放 从 当前 
流水 段 传 到 后 面 所 有 流水 段 的 信息 。 因 为 每 个 段 间 传递 的 信息 不 一 样 ,所 以 各 流水 段 寄 存 
器 的 长 度 也 不 一 样 。 

图 6.5 中 给 出 了 数据 通路 用 到 的 所 有 控制 信号 ,用 点 虚线 连 到 所 控制 的 功能 部 件 。 可 
以 看 出 ,PC 和 各 个 流水 段 寄存 器 都 没有 写 使 能 信号 。 这 是 因为 每 个 时 钟 都 会 改变 PC 的 
值 ,所 以 PC 不 需要 写 使 能 控制 信号 ;每 个 流水 段 寄存 器 在 每 个 时 钟 都 会 写 人 一 次 ,因此 , 流 
水 段 寄存 器 也 不 需要 写 使 能 控制 信号 。 此 外 ,前 两 个 流水 段 的 功能 每 条 指令 都 相同 ,是 公共 
流水 段 , 因 此 ,也 不 需要 控制 信号 。 其 余 段 的 控制 信号 如 下 。 

Exec 段 的 控制 信号 有 以 下 5 个 。 

(1) ExtOp( 扩 展 器 操作 ) : 1 一 符号 扩展 ,0 一 零 扩 展 。 

(2) ALUsrc(ALU 的 BB 口 来 源 ): 1 一 来 源 于 扩展 器 ,0 一 来 源 于 busB。 

(3) ALUOp( 用 于 辅助 局 部 ALU 控制 逻辑 来 决定 ALUctr 的 操作 信号 ): 3 位 编码 。 

(4) RegDst( 指 定 目的 寄存 器 ) : 1 一 Rd,0 一 Rt。 

(5) R-type( 区 分 是 否 为 R- 型 指令 ): 1 一 R- 型 指令 ,0 一 非 R- 型 指令 。 

Mem 段 的 控制 信号 有 以 下 两 个 。 

(1) MemWr( 数 据 存储 器 DM 的 写 信号 ) : sw 指令 时 为 1, 其 他 指令 为 0。 

(2) Branch( 是 否 为 分 支 指令 ): 分 支 指令 时 为 1, 其 他 指令 为 0。 

Wr 段 的 控制 信号 有 两 个 。 

(1) MemtoReg( 寄 存 器 的 写 人 源 ) : 1 一 DM 输出 ,0 一 ALU 输出 

(2) RegWr( 寄 存 器 堆 写 信号 ) : 结果 写 寄存 器 的 指令 都 为 1, 其 他 指令 为 0。 
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以 下 分 别 介绍 各 流水 段 的 功能 、 功 能 部 件 、 保 存 到 流水 段 寄 存 器 的 信息 和 控制 信号 
取 值 。 

1. Ifetch(IF) 段 

IF 流水 段 的 功能 是 : 将 PC 的 值 作为 地 址 到 指令 存储 器 IM(Instruction Memory) 中 取 
指令 ,并 计算 PC 十 4, 送 PC 输入 端 。 这 些 功 能 由 取 指 部 件 (IUnit) 来 完成 ,其 具体 实现 如 
图 6.6 所 示 。 


| li Ifetch 一 i Reg/Dec 



































6.6 取 指 令 部 件 IUnit 的 内 部 实现 


假定 当前 指令 地 址 为 12, 则 当时 钟 Clk 的 下 降 沿 到 来 时 ,在 PC 输入 端的 值 12 经 过 
“Clk-to-Q” 时 延 后 ,被 送 到 IM 的 地 址 输入 端 Adr, 并 同时 送 加 法 器 。 在 IM 中 经 过 一 个 存 
取 时 间 后 ,指令 被 送 到 IM 的 输出 端 。 在 加 法 器 中 PC 与 “4” 相 加 后 送 到 一 个 多 路 选择 器 ,车 
是 顺序 执行 , 则 下 一 个 时 钟 到 来 时 PC 为 16。 但 指令 不 总 是 顺序 执行 , 当 执 行 到 分 支 指令 或 
无 条 件 转移 指令 时 ,PC 的 值 可 能 被 修改 ,因此 PC 的 输入 来 自 一 个 多 路 选择 器 。 当 需要 转 
移 时 ,可 控制 选择 转移 目标 地 址 送 PC。 

IF 段 执行 的 结果 被 送 到 IF/ID 寄存 器 的 输入 端 ,下 一 个 时 钟 到 来 时 ,在 IF/ID 寄存 器 
输入 端的 信息 开始 送 到 ID 段 继续 被 处 理 。 那 么 ,IFVID 寄存 器 中 需要 保存 的 结果 是 哪些 
呢 ? 显然 ,从 IM 中 取出 的 指令 要 被 继续 处 理 ,因而 ,需要 保存 在 IF/ID 寄存 器 中 ;此 外 ,如 
果 当 前 指令 是 分 支 指令 , 则 PC 十 4 的 值 在 后 面 的 流水 段 中 需要 用 来 计算 相对 转移 地 址 ,所 
以 ,PC 十 4 的 值 也 需要 保存 在 IF/ID 寄存 器 中 。 

该 段 唯一 的 控制 点 是 多 路 选择 器 的 控制 端 ,从 图 6. 5 看 出 ,多 路 选择 器 的 控制 端 由 在 
Mem 段 产生 的 Branch 信号 和 Zero 标志 来 控制 ,显然 ,Branch 信号 只 有 在 对 分 支 指令 beq 
译 码 后 才 取 值 为 1, 其 他 情况 下 ,Branch 总 是 1, 所 以 ,在 IF 阶段 Branch 王 0, 因 而 ,此 时 ,多 
路 选择 器 的 输出 为 PC 十 4。 在 执行 beq 指令 时 ,在 Mem 段 将 得 到 转移 目标 地 址 ,此 时 , 若 
Zero 二 1 则 将 转移 目标 地 址 选择 送 到 PC 的 输入 端 。 

2. Reg/Dec(ID) 段 

ID 流水 段 的 功能 是 : 根据 指令 中 的 Rs 和 Rt 的 值 到 寄存 器 堆 中 取出 相应 寄存 器 的 值 ， 
同时 对 指令 中 的 操作 码 op 字段 进行 译 码 , 生 成 相应 的 控制 信号 。 寄 存 器 堆 可 看 成 是 寄存 器 
读 口 和 寄存 器 写 口 两 个 功能 部 件 。ID 段 的 功能 由 寄存 器 读 口 和 控制 器 完成 ,如 图 6. 5 所 
示 。 有 关 流 水 线 处 理 器 的 控制 器 的 实现 在 6. 2. 3 节 介 绍 。 

ID 段 执行 的 结果 被 送 到 ID/Ex 寄存 器 的 输入 端 , 下 一 个 时 钟 到 来 时 ,在 ID/Ex 寄存 器 
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输入 端的 信息 开始 送 到 Ex 段 继续 被 处 理 。 这 些 信 息 包括 RLRs]、RLRt]、Rt、Rd、imm16、 
func、PC 十 4 等 。 因 为 指令 中 需要 的 信息 已 被 保存 ,所 以 指令 本 身 就 不 再 需要 保存 在 ID/Ex 
寄存 器 中 。 


3. Exec(Ex) 段 
Ex 段 的 功能 由 具体 指令 确定 ,不 同 指令 经 ID 段 译 码 后 得 到 不 同 的 控制 信号 ,用 来 控制 


执行 部 件 进行 不 同 的 操作 。 图 6. 7 是 执行 部 件 (Exec Unit) 的 示意 图 。 
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图 6.7 执行 部 件 Exec Unit 的 内 部 实现 


在 Ex 流水 段 中 ,各 类 指令 的 功能 分 别 描述 如 下 。 
(1) R- 型 指令 。 在 ALU 中 对 busA 和 busB 传递 来 的 数据 执行 相应 的 运算 ,运算 结果 


送 ALUout, 并 产生 相应 的 标志 信息 Zero 和 Overflow。 

(2) 工 型 运算 类 指令 。 在 ALU 中 对 立即 数 扩 展 后 的 数据 与 busA 传递 来 的 数据 执行 相 
应 的 运算 ,运算 结果 送 ALUonut ,并 产生 相应 的 标志 信息 Zero 和 Overflow 。 

(3) lw/sw 指令 。 在 ALU 中 对 立即 数 符号 扩展 后 的 数据 与 busA 传递 来 的 数据 执行 
加 法 运算 ,得 到 存储 器 地 址 送 ALUout。 

(4) beq 指令 。 在 ALU 中 对 busA 和 busB 传递 来 的 数据 执行 减法 运算 ,得 到 Zero 标 
志 ; 同 时 ,对 立即 数 进行 符号 扩展 后 ,在 加 法 器 中 与 “PC 十 4” 相 加 ,得 到 转移 目标 地 址 。 

(5) j 指令 。 生 成 转移 目标 地 址 , 即 PC<<31:28>> | target<25:0 二 。 

根据 每 类 指令 的 功能 ,综合 考虑 图 6.7 和 图 6. 5 ,得 到 每 条 指令 的 执行 流程 及 其 控制 信 
号 取 值 如 下 。 


1) R- 型 指令 的 执行 
11 条 目标 指令 中 的 add、sub、subu、slt 和 sltu 都 是 R- 型 指令 ,它们 在 ALU 中 由 


ALUctr 控制 分 别 执行 add、sub、subu、slt 和 sltu 运算 ,ALUctr 操作 控制 信号 由 局 部 ALU 
控制 器 根据 func 字段 产生 。R- 型 指令 的 目的 寄存 器 是 Rd, ALU 的 操作 数 来 自 busA 和 
busB, 不 需要 扩展 操作 。 最 终 , 将 ALU 得 到 的 结果 ,包括 Overflow 标志 和 Zero 标志 一 
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被 送 到 Ex/Mem 寄存 器 的 输入 端 。 综 上 所 述 , 得 到 控制 信号 的 取 值 为 RegDst 王 1,ExtOp 一 x， 
ALUsrc=0, ALUOp= xxx, R-type= 1。 

2) 工 型 运算 类 指令 的 执行 

11 条 目标 指令 中 的 ori 和 addiu 是 工 型 运算 类 指令 ,它们 在 ALU 中 由 ALUctr 控制 分 
别 执行 or 和 addu 运算 ,ALUctr 操作 控制 信号 由 主 控制 器 根据 指令 操作 码 op 字段 产生 。 
工 型 运算 类 指令 的 目的 寄存 器 是 Rt, ALU 的 操作 数 来 自 于 busA 和 扩展 器 的 输出 ,逻辑 运 
算 进行 零 扩展 ,而 算术 运算 则 为 符号 扩展 。 与 R- 型 指令 一 样 ,最 终 将 ALU 中 得 到 的 结果 ， 
包括 Overflow 标志 和 Zero 标志 一 起 被 送 到 Ex/Mem 寄存 器 的 输入 端 。 综 上 所 述 可 知 ， 
ori 指令 的 控制 信号 取 值 为 RegDst= 二 0,ExtOp 二 0, ALUSrc= 二 1, ALUOp 二 or, R-type 二 0。 
addiu 指令 的 控制 信号 取 值 为 RegDst= 二 0, ExtOp= 二 1, ALUsrc==1, ALUOp = addu， 
R-type=0。 

3) lw 指令 的 执行 

首先 要 在 ALU 中 进行 地 址 计算 ,ALU 的 操作 数 来 自 busA 和 扩展 器 输出 ,采用 符号 扩 
展 , 在 ALU 中 由 ALUctr 控制 执行 addu 运算 ,目的 寄存 器 是 Rt。 最 终 在 ALU 中 得 到 的 存 
储 器 地 址 被 送 到 Ex/Mem 寄存 器 的 输入 端 。 综 上 所 述 ,得 到 控制 信号 的 取 值 为 RegDst 二 0， 
ExtOp=1,ALUsrc=1, ALUOp=addu,R-type=0。 

4) sw 指令 的 执行 

同 lw 指令 一 样 ,需要 进行 存储 器 地 址 计算 并 送 下 一 级 流水 线 寄存 器 。 因 为 该 指令 不 会 
写 结果 到 寄存 器 ,所 以 ,RegDst 的 取 值 可 任意 ,不 会 影响 结果 。 综 上 所 述 , 得 到 控制 信号 的 
取 值 为 RegDst= 二 x,ExtOp 二 1,ALUsrc==1, ALUOp= 二 addu,R-type 二 0。 

5) beq 指令 的 执行 

beq 指令 需要 比较 寄存 器 Rs 和 Rt 的 值 ,通过 在 ALU 中 做 减法 生成 Zero 标志 来 实现 
比较 。 因 此 ,ALU 两 个 操作 数 来 源 是 busA 和 busB,ALUctr 操作 控制 信号 为 subu; 同时 ， 
将 imm1l16 送 到 扩展 器 ,然后 在 ExtOp 的 控制 下 进行 符号 扩展 ,扩展 结果 左 移 两 位 ,再 和 
PC 十 4 相 加 ,生成 相对 转移 目标 地 址 。 执 行 阶段 生成 的 Zero 标志 和 转移 目标 地 址 被 送 到 
Ex/Mem 寄存 器 的 输入 端 。 因 为 不 改变 任何 寄存 器 的 值 ,所 以 控制 信号 RegDst 的 值 任 意 。 
综 上 所 述 ,得 到 控制 信号 的 取 值 为 RegDst=x,ExtOp 王 1,ALUsrc 王 0,ALUOPp 王 subu， 
R-type 一 0 。 

6) j 指令 的 执行 

只 要 形成 一 个 32 位 的 转移 目标 地 址 (PC<<31:28>> | target<25:0 之 ) 即 可 ,因此 不 需 
要 执行 任何 运算 ,只 要 将 相应 的 信号 线 串 联 起 来 形成 32 位 地 址 送 到 Ex/Mem 寄存 器 的 输 
入 端 。 显然 ,控制 信号 的 取 值 为 RegDst 二 x, ExtOp 一 x,ALUsrc 王 x, ALUOp 一 xxx， 
R-type 一 x。 有 关 j 指令 的 数据 通路 没有 画 出 ,留待 习题 中 完成 ,可 参照 beq 指令 来 实现 。 

4. Mem 段 

Mem 流水 段 的 功能 也 由 具体 指令 确定 。 从 图 6. 5 知 ,这 个 流水 段 有 Branch 和 MemWr 
两 个 控制 信号 。 各 条 指令 在 Mem 段 的 执行 流程 和 控制 信号 取 值 如 下 。 

(1) 若是 R- 型 指令 或 工 型 运算 类 指令 , 则 在 Mem 段 是 “ 空 ” 操 作 , 只 要 把 相应 信息 继续 
传递 到 下 一 个 流水 段 即 可 。 控 制 信号 取 值 为 Branch 一 0,MemWr 一 0。 

(2) 若是 lw 指令 , 则 进行 取 数 操作 。 在 Ex 段 得 到 的 地 址 被 送 到 DM 的 读 地 址 端 RA， 
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经 过 一 段 存 取 时 间 ,数据 从 DM 的 输出 端 Do 送 到 Mem/Wr 寄 存 器 的 输入 端 。 控 制 信号 取 
值 为 Branch 王 0,MemWr 王 0 。 

(3) 若是 sw 指令 , 则 进行 存 数 操作 。 在 Ex 段 得 到 的 地 址 被 送 到 数据 存储 器 DM 的 写 
地 址 端 WA, 同 时 把 Ex/Mem 寄存 器 送 来 的 要 存 的 数据 RLRtj 送 DM 的 输入 端 Di, 经 过 一 
段 存 取 时 间 后 ,数据 被 存 人 DM 中 。 控 制 信号 取 值 为 Branch 王 0,MemWr=1。 

(4) 若是 beq 或 j 指令 , 则 将 Ex 段 生成 的 转移 目标 地 址 更 新 到 PC 中 ,图 6.5 和 图 6.7 
中 画 出 了 beq 指令 相关 的 数据 通路 。 若 是 beq 指令 , 则 Branch 二 1, MemWr 二 0。 此 时 ,车 
在 Ex 段 生成 的 Zero 为 1, 则 会 控制 PC 输入 端的 多 路 选择 器 选择 将 转移 目标 地 址 送 PC 的 
输入 端 。 

5. Wr 段 

如 图 6.5 所 示 ,寄存 器 写 口 是 Wr 段 的 主要 功能 部 件 ,寄存 器 堆 RFile 的 写 地 址 端口 
Rw 来 源 于 Mem/Wr 寄存 器 的 目的 寄存 器 输出 , 写 数 据 端 口 Di 来 源 于 一 个 多 路 选择 器 的 
输出 , 写 使 能 信号 WE 由 溢出 标志 Overflow 和 控制 信号 RegWr 共同 确定 。Wr 流水 段 的 
功能 也 由 具体 指令 确定 ,各 条 指令 在 Wr 段 的 执行 流程 和 控制 信号 取 值 如 下 。 

(1) 若是 R- 型 指令 或 工 型 运算 类 指令 , 则 选择 将 ALU 的 输出 结果 送 寄 存 器 堆 的 输入 
端 Di, 目 的 寄存 器 送 写 地 址 端 Rw。 控 制 信号 取 值 为 MemtoReg 一 0,RegWr 一 1。 

(2) 若是 lw 指令 , 则 选择 将 DM 读 出 结果 送 寄存 器 堆 的 输入 端 Di, 目 的 寄存 器 送 写 地 
址 端 Rw。 控 制 信和 号 取 值 为 MemtoReg 王 1,RegWr 一 1。 

(3) 若是 sw 、beq 或 ;指令 , 则 任何 寄存 器 的 值 都 不 改变 , 即 不 能 写 寄存 器 。 控 制 信号 
取 值 为 MemtoReg 二 x,RegWr 二 0。 


6.2.3 流水 线 控制 器 的 设计 


从 上 述 分 析 可 以 看 出 , 某 一 时 刻 每 个 流水 段 执行 的 是 不 同 指令 的 某 个 阶段 ,因而 某 一 时 
刻 每 个 流水 段 中 的 控制 信号 应 该 是 正在 执行 指令 的 对 应 功能 段 的 控制 信号 。 

如 图 6. 8 所 示 , 假 定 有 3 条 指令 lw、ori 和 add 依次 在 时 钟 1.2 和 3 开始 进入 流水 线 执 
行 , 则 流水 线 中 控制 信号 的 传递 情况 如 下 : 第 2 时 钟 对 lw 指令 译 码 ,产生 出 的 控制 信号 在 
下 一 个 时 钟 (第 3 时 钟 ) 送 到 Exec 段 , 在 第 4 时钟 送 到 Mem 段 ,在 第 5 时 钟 送 到 Write 段 ; 
在 第 3 时 钟 对 ori 指令 译 码 ,产生 出 的 控制 信号 在 第 4 时 钟 送 Exec 段 ,第 5 时钟 送 Mem 
段 ,第 6 时 钟 送 Write 段 …… 由 此 可 见 , 在 某 个 时 钟 期 间 , 不 同 的 流水 段 受 不 同 指令 的 控制 
信和 号 控制 ,执行 不 同 指令 的 不 同 功能 段 。 例 如 ,在 第 5 时 钟 内 , Write 段 由 lw 指令 的 信号 控 
制 ,Mem 段 由 ori 的 信号 控制 ,Exec 段 由 add 的 信号 控制 。 


时 钟 周期 | i 1 2 1 3 1 4 1 5 1 6 1 7 1 























lw 指令 | Ifetch Reg/Dec Exec Mem Write 
ori 指 令 Ifetch Reg/Dec Exec Mem Write 
add 指 令 Ifetch Reg/Dec Exec Mem Write 























图 6.8 流水 线 执行 情况 举例 


指令 流水 线 


从 上 述 例子 可 看 出 : 在 Reg/Dec 阶段 由 控制 器 产生 指令 各 流水 段 的 所 有 控制 信号 ,分 
别 在 随后 的 各 个 时 钟 周期 内 被 使 用 。 具 体 来 说 , Exec 阶段 的 信号 (RegDst、ExtOp、 
ALUSrc、ALUOp、R-type) 在 下 一 个 时 钟 周期 使 用 ;Mem 阶段 的 信号 (MemWr, Branch) 
在 随后 第 二 个 周期 使 用 ;Write 阶段 的 信号 (MemtoReg，RegWr) 在 随后 第 三 个 周期 使 用 。 
因此 随后 各 流水 段 寄存 器 中 都 要 保存 相应 的 控制 信号 ,如 图 6. 9 所 示 。 
















































































Reg/Dec We Exec i 上 Mem | : Write 
| i= -| 一 一 | 一 
| 1 1 TS 
| 1 1 1 
ER ExtOp ob ExtOp 6 
ALUSrc ALUSrc 
ALUOp ALUOp 
| 一 一 ae 
RegDst RegDst 
i 上 加 KF 
写 Main |Rype || Rype 和 3 
3 Control | MemWr ,| | Mem Wr li MemWr _ 
Branch Branch Branch | 
一 | 一 | 一 
MemtoReg MemtoReg MemtoReg MemtoReg 
一 | 一 | 一 | 一 
RegWr RegWr | | RegWr RegWr 














6.9 控制 信号 在 流水 线 中 的 传递 


综 上 所 述 ,每 个 流水 段 寄存 器 中 保存 的 信息 包括 两 类 : 一 类 是 后 面 阶段 需要 用 到 的 所 
有 数据 信息 ,包括 PC 十 4、 指 令 、 立 即 数 、 目 的 寄存 器 、ALU 运算 结果 ,标志 信息 等 ,它们 是 前 
面 阶段 在 数据 通路 中 执行 的 结果 ;还 有 一 类 是 前 面 传递 过 来 的 后 面 各 阶段 要 用 到 的 所 有 控 
制 信号。 

第 5 章 介 绍 过 单 周期 处 理 器 和 多 周期 处 理 器 的 控制 器 设计 。 单 周期 处 理 器 中 ,每 条 指 
令 的 控制 信号 在 指令 执行 期 间 是 不 变 的 ;而 多 周期 处 理 器 中 ,每 条 指令 分 多 个 周期 执行 ,所 
以 控制 器 的 功能 采用 有 限 状态 机 来 描述 。 

因为 流水 线 处 理 器 中 控制 信号 一 旦 在 ID 段 由 控制 器 生成 ,就 不 会 改变 ,并 和 数据 信息 
同步 地 依次 传递 到 后 面 的 流水 段 中 ,显然 这 和 单 周期 控制 器 类 似 ,因而 ,流水 线 控制 器 的 设 
计 可 以 完全 按照 单 周 期 控制 器 设计 的 思路 进行 , 故 在 此 不 多 缆 述 。 


6.3 流水线 冒 险 及 其 处 理 


指令 流水 线 中 ,可 能 会 遇 到 一 些 情况 使 得 流水 线 无 法 正确 执行 后 续 指 令 而 引起 流水 线 
阻塞 或 停顿 (stalD ,这 种 现象 称 为 流水 线 冒 险 (hazard) 。 根 据 导 致 冒险 的 原因 的 不 同 ,有 结 
构 冒 险 、 数 据 冒险 和 控制 冒险 3 种 。 以 下 分 别 介 绍 其 原因 和 对 策 。 


6.3.1 结构 冒险 


结构 冒险 (structural hazard) 也 称 为 硬件 资源 冲突 (hardware resource conflict) ,引起 
结构 冒险 的 原因 在 于 同一 个 部 件 同时 被 不 同 指令 所 用 ,也 就 是 说 它 是 由 硬件 资源 竞争 造 
成 的 。 

如 图 6. 10(a) 所 示 , 若 不 区 分 指令 存储 器 和 数据 存储 器 而 只 用 一 个 存储 器 的 话 , 则 在 
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Load 指令 取 数 据 的 同时 ,随后 的 指令 3(Instr3) 正 好 取 指 令 , 此 时 发 生 访 存 冲突 。 同 样 ,如 
果 不 对 寄存 器 堆 的 写 口 和 读 口 独立 设置 的 话 ,Load 和 随后 的 指令 3 也 会 发 生 寄存 器 访问 
冲突 。 


Time (clock cycles) 
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1 + 4 4 4 1 4 4 
FDI ‘Ex! Mml! Wr ! 1 1 1 

1 S 1 1 1 1 1 
Load | IM HHReg|! EhiMem | 1 | | 
上 T > 1 1 1 1 1 1 
1 1 1 1 1 1 1 
1 1 HH 到 1 1 1 1 1 
1 1 1 1 
Instr 1 1 | IM | ees |! Eh DM pHRegl ! | ! 
| 
上 1 10 1 1 1 1 
Instr 2 1 1 |IM TiReg| | ™T DM Reg| | 1 
| 1 1 于 1 出 上 1 
1 | 1 1 有 1 1 
| pe dm 
Instr 3 | ! | Me 叭 HDM |Res| | 
1 1 1 1 1 1 1 1 
1 1 1 1 | -> 1 1 

| msr4 | | | | IM HHReg| 1 DEH DM pH Re 
1 1 1 | 1 T ll 1 
1 1 1 1 1 1 [| 1 1 
1 1 1 1 1 | 1 1 

(a) 有 寄存 器 和 存储 器 访问 冲突 的 流水 线 
Time (clock cycles) 
| 1 1 | ' 1 1 1 

IF 1 ID | Ex Mem]| Wr | | | | 
1 1 1 1 1 1 1 
Load | HResl ovh 图 ': ': | 
1 1 1 1 1 1 1 1 
1 1 上 1 | 1 1 1 
1 1 1 1 1 1 1 
Instr 1 | IM 站 图 1 3 村 DM Reg ! | I 
| 1 1 1 1 1 1 1 
' 1 | | 1 1 1 1 
Instr 2 | 1 | IM 这 DM pHReg| | 1 
1 1 1 区 上 1 1 1 
| | | | | 会 | | | 
Instr3 1 1 1| ia HM 蜂 汪 川 DM biReg| 1 
ee | 1 1 | 1 怎 厂 prs) 
1 上 1 1 1 1 1 
1 1 1 1 1 出 ] 1 1 

Instr4 | | | 中 IM HRee| ! 川 DM Reg 

1 上 

1 1 1 1 1 | 1 1 
1 1 1 1 1 1 1 1 
4 1 1 


1 
(b) 消除 了 寄存 器 和 存储 器 访问 冲突 的 流水 线 
图 6.10 结构 冒险 的 例子 


解决 结构 冒险 的 策略 有 两 个 方面 : 通过 6. 2. 1 节 提 到 过 的 功能 段 划分 原则 (一 个 部 
件 每 条 指令 只 能 使 用 一 次 , 且 只 能 在 特定 时 钟 周 期 使 用 ), 可 以 避免 一 部 分 结构 冒险 ; @ 通 
过 设置 多 个 独立 的 部 件 来 避免 硬件 资源 冲突 。 例 如 ,对 于 寄存 器 访问 冲突 ,可 将 寄存 器 读 口 
和 写 口 独立 开 来 ,利用 时 钟 上 升 沿 和 下 降 沿 两 次 触发 ,使 得 前 半 周 期 使 用 写 口 进行 寄存 器 
写 , 后 半 周 期 使 用 读 口 进行 寄存 器 读 ;对 于 存储 器 访 存 冲 突 , 可 把 指令 存储 器 IM 和 数据 存储 
器 DM 分 开 , 从 而 使 指令 和 数据 的 访问 各 自 独立 ,这 样 就 不 会 发 生 结构 冒险 ,如 图 6. 10(b) 
所 示 。 事 实 上 ,现代 计算 机 都 引入 了 cache 机 制 ,而且 L1 cache 通常 采用 数据 cache 和 代码 
cache 分 离 的 方式 ,因而 也 就 避免 了 结构 冒险 的 发 生 。 


指 会 流水 线 


6.3.2 数据 冒险 


数据 冒险 (data hazard) 也 称 为 数据 相关 (data dependency) 。 引 起 数据 冒险 的 原因 在 于 
后 面 指令 用 到 前 面 指令 结果 时 前 面 指令 结果 还 没有 产生 。 图 6. 11 是 一 个 存在 数据 冒险 的 
流水 线 例子 。 
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T T T T T T T T 
IF IID ! Ex !Mem| Wr | | | | 
1 1 1 1 1 1 1 
add $1, $2, $3 | IM Reg 1 司 1 DM 4 ! | | | 
1 | 1 1 1 
1 1 | | | 1 | 
1 1 
sub $4, $1, $3 中 IM Hr 二 M 用 Reg|l | 
1 1 1 2 1 1 1 1 
ep SN I we es HE 
| 1 I 
or $8, $1, $9 1 1 IM 思 R 国 ， 所 M pH Regl! | 
1 1 1 1 1 
1 1 1 1 1 1 | 
1 1 1 人 1 1 1 
add $6, $1, $7 | | 中 IM HR 镶 | | DM HReg| | 
1 1 1 1 1 1 1 
1 | 1 1 1 1 1 1 
| | | ‖ IM | Ep pm bre 
1 1 1 | 
1 xor $3, $1, $5 | | | | | 8| 1 /C 2 
:SS 
1 








图 6.11 存在 数据 冒险 的 流水 线 例子 


在 图 6.11 中 ,第 一 条 指令 的 目的 寄存 器 $1 是 后 面 4 条 指令 的 源 寄存 器 。 第 一 条 指令 
在 Wr 阶段 结束 才 将 结果 写 到 $1 中 ,而 第 2、3、4 条 指令 分 别 在 第 一 条 指令 的 Ex、Mem 和 
Wr 阶段 就 要 取 $ 1 的 内 容 , 显 然 ,如 果 不 采 取 任 何 措施 ,这 几 条 指令 取 到 的 是 $1 的 旧 值 ， 
只 有 第 5 条 指令 xor 能 取 到 $1 的 新 值 。 从 图 6. 11 可 看 出 ,所 有 的 数据 冒险 都 是 由 于 前 面 
指令 写 结果 之 前 后 面 指令 就 需要 读 取 而 造成 的 ,这 种 数据 冒险 称 为 写 后 读 (Read After 
Write,RAW) 数 据 冒 险 。 在 非 “ 乱 序 ” 执 行 的 基本 流水 线 中 ,所 有 数据 冒险 都 属于 RAW 数 
据 冒险 。 

对 于 RAW 数据 冒险 ,可 以 采取 以 下 几 个 措施 。 

1. 插入 空 操 作 指 令 

在 软件 上 采取 措施 ,使 相关 指令 延迟 执行 。 最 简单 的 做 法 是 ,在 编译 时 预先 插入 空 操作 
指令 nop。 这 样 做 的 好 处 是 硬件 控制 简单 ,但 浪费 了 指令 存储 空间 和 指令 执行 时 间 。 如 
图 6. 12 所 示 , 共 浪费 了 3 条 指令 的 空间 和 时 间 。 

2. 插入 气泡 

在 硬件 上 采取 措施 ,使 相关 指令 延迟 执行 ,通过 硬件 阻塞 (stall) 方 式 阻止 后 续 指 令 执 
行 。 这 种 硬件 阻塞 的 方式 称 为 “插入 气泡 (bubble)”, 如 图 6. 13 所 示 。 

这 种 方式 控制 比较 复杂 ,需要 修改 数据 通路 。 通 常 要 在 数据 通路 中 检测 哪 两 条 指令 发 
生 了 相关 ,以 确定 是 否 进行 阻塞 。 阻塞 时 ,可 将 控制 信号 清 零 来 阻止 结果 的 写 信 ;也 可 将 指 
令 清 零 使 后 续 指令 执行 空 操作 ;或 让 PC 写 使 能 信号 清 零 使 PC 值 不 变 ,从 而 使 当前 指令 重 
复 执行 。 这 种 方式 不 增加 指令 条 数 , 但 有 额外 时 间 开 销 。 

3. 采用 转发 技术 

将 数据 通路 中 生成 的 中 间 数 据 直 接 转 发 到 ALU 的 输入 端 。 从 图 6. 11 可 看 出 ,第 一 条 
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IF |ID | Ex! Mem) Wr | | | | 
上 iN 1 1 1 | 1 | 
add $1, $2, $3 | IM MReg|| EDM WReg | | | 
1 1 1 上 | 1 | 
1 1 1 1 上 I 1 1 
| IM Re 1 2 DM 1 Re | | | 
1 上 HS i 1 | 
人 | 
S 
nop | | IM LReg | Eh pM IHRegl! | 
| | | 1 | 1 | 
| 
nop | 1 中 IM MReg|! DM pH Reg, | 
| | 1 1 
1 | | 1 1 1 | 
1 | | 全， | 
sub $4, $1, $3 1 | | IM HR | Srlov Res 
1 | | 1 | | 
| 
1 orS$8, $1, $9 | | ! | | IM 时 Re Eb pM 
1 1 1 1 | [2 























图 6.12 用 插入 nop 指令 的 方式 解决 数据 冒险 
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IF IID | Ex |Mem!| Wr | | | | 

1 1 1 1 1 1 1 1 

1 1 1 1 1 1 1 1 

add $1,82,$3 [IM al | | | 

和 1 1 1 | | 1 1 

1 1 | 1 1 1 1 | 

ll IDM 让 气 泡 乒 和 泡 轩 气泡 N 泡 | | | 

人 

stall | | mv he abe A ， | 

| ! | ee RS et a | 

1 1 由 1 | | | | 

stall mv 汪汪 

1 | 1 1 | 1 1 1 

1 1 1 1 1 | S 1 1 
sub $4, $1, $3 | | | | IM i | DM Reg 

l IE 
or $8, $1, $9 IM Hi1R DM 
| Ey 











图 6.13 用 硬件 阻塞 的 方式 解决 数据 冒险 


指令 在 Ex 段 结束 时 已 经 得 到 $1 的 新 值 ,被 存放 在 Ex/Mem 流水 段 寄 存 器 中 ,因此 ,可 以 
直接 从 该 流水 段 寄存 器 中 取出 数据 送 到 ALU 的 输入 端 ,这 样 ,在 第 二 条 指令 执行 时 ALU 
中 用 的 是 $1 的 新 值 。 同 样 ,第 3 条 指令 在 ALU 中 用 到 的 $1 也 可 以 直接 从 Mem/Wr 流 
水 段 寄 存 器 中 取 , 如 图 6. 14 所 示 。 这 种 技术 称 为 转发 (forwarding) 或 旁 路 (bypassing) 
技术 。 

对 于 第 一 条 和 第 四 条 指令 之 间 的 数据 相关 问题 ,可 以 通过 将 寄存 器 写 口 和 读 口 分 别 控 
制 在 前 、 后 半 个 时 钟 周期 内 操作 来 解决 ,使 前 半 周 期 写 信 $1 的 值 在 后 半 周 期 马上 被 读 出 。 

采用 转发 技术 解决 数据 冒险 必须 在 硬件 上 进行 相应 的 改动 。 如 图 6. 15 所 示 , 通 过 在 
ALU 的 输入 端 加 多 路 选择 器 ,使 Ex 段 之 后 的 流水 段 寄 存 器 的 值 能 返 送 到 ALU 输入 端 。 
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IF IID | Ex!Mem! Wr | | | | 
NI 1 
add $1, $2,$3 |IM 四 Reg| ri pM eg 1 1 1 
1 1 1 1 
1 | 1 1 1 1 
1 上 SS 1 1 1 
sub $4, $1, $3 区 川 R 合 |， 乱 Rel | | 
1 1 1 L 1 1 1 
ep CS ep Us | 
or $8, $1, 99 ! LM FR 备 ! DM reg| | 
1 1 1 1 1 1 I! 
| 1 mR 必 1 bpm breel 
add $6, $1, $7 1 DM HReg|， 
1 1 1 1 1 | 1 
| 
T 
I DM 
| xor$3, $1, 85 i ‘eh (5 Mes 
1 1 1 1 | | 1 
1 是 1 1 1 





图 6.14 用 转发 技术 解决 数据 冒险 


背 仿 流水 线 


ALU 的 A 输入 端 原来 只 有 从 ID/Ex 寄存 器 来 的 busA,B 输入 端 原 来 只 有 从 ID/Ex 寄存 器 
来 的 busB 和 扩展 器 的 值 ,采用 转发 技术 后 ,A 端 和 B 端 都 增加 了 3 个 可 能 的 输入 。 


Ex 


~ 


Mem 











La 

1 

1 

1 

1 

1 
cbs 








xI/al 

















1 

1 

1 

T 
EA 


WN/XI 

















一 











add $3, $2, $1 
sub $5, $3, $4 
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lw $3, 100($1) 
or $6, $2, $1 
sub $5, $3, $4 





1 [add $3, $2, $1 


or $6, $2, $1 
sub $5, $3, $4 















































图 6.15 引入 转发 技术 后 数据 通路 中 增加 的 转发 线路 


图 6.15 中 有 3 个 指令 序列 示例 ,从 这 3 个 示例 可 看 出 ,增加 转发 线路 后 , 相 邻 两 条 
ALU 运算 类 指令 之 间 、 相 隔 一 条 的 两 个 ALU 运算 类 指令 之 间 , 以 及 相隔 一 条 的 Load 和 
ALTU 运算 类 指令 之 间 的 数据 相关 带 来 的 数据 冒险 问题 就 都 能 解决 了 。 

如 果 是 R- 型 指令 后 直接 跟 sw 指令 的 相关 性 问题 , 则 上 述 转发 线路 不 能 解决 。 这 种 情 
况 是 ,R- 型 指令 的 目标 寄存 器 是 sw 指令 的 源 寄存 器 ;sw 指令 在 译 码 阶段 读 取 源 寄存 器 的 
内 容 时 ,上 一 条 R- 型 指令 中 执行 的 结果 尚未 写 入 目标 寄存 器 。 但 仍然 可 以 用 转发 技术 来 解 
决 ,只 要 采用 图 6.15 所 示 的 类 似 方法 ,在 DM 的 数据 输入 端 Di 处 增加 一 个 多 路 选择 器 就 可 
以 , 即 在 sw 指令 写 存 储 器 时 不 使 用 该 指令 读 出 的 源 寄存 器 值 (是 一 个 旧 值 ), 而 是 改 用 上 一 
条 R- 型 指令 执行 阶段 产生 的 ALU 的 输出 值 。 


On 
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从 图 6.15 可 看 出 ,采用 转发 技术 的 数据 通路 中 ,在 执行 阶段 ALU 的 两 个 输入 端 处 ,多 
路 选择 器 的 控制 信号 需要 考虑 转发 条 件 , 因 而 需要 对 图 6.7 中 的 执行 部 件 进行 以 下 的 部 分 

(1) 原来 ALU 的 A 输入 端 加 一 个 三 选 一 多 路 选择 器 , 随 之 增加 一 个 两 位 的 控制 信号 
ALUSrcA。 

(2) 原来 ALU 的 B 输 入 端 多 路 选择 器 要 调整 为 四 选 一 ,原来 的 一 位 控制 信号 ALUSrc 
改 为 两 位 控制 信号 ALUSrcB。 

(3) 控制 信号 ALUSrcA 和 ALUSrcB 的 取 值 除了 考虑 原来 的 控制 信号 ALUSrc 以 外 ， 
还 要 考虑 转发 条 件 检测 的 结果 。 

(4) 对 图 6. 15 中 的 转发 线路 进行 合并 ,在 Wr 阶段 用 一 个 多 路 选择 器 将 ALU 输出 结 
果 和 数据 存储 器 的 输出 数据 合并 成 一 路 数据 同时 转发 到 ALU 的 两 个 输入 端 。 

调整 后 的 部 分 流水 线 数据 通路 如 图 6. 16 所 示 。 
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图 6.16 带 转 发 控制 的 部 分 流水 线 数据 通路 


图 6. 16 中 “转发 检测 单元 ”的 控制 逻辑 可 根据 指令 的 数据 相关 性 来 设计 。 从 图 6. 15 可 
以 看 出 ,发 生 数 据 相 关 的 情况 有 以 下 两 种 。 
(1) 本 条 指令 的 目的 操作 数 是 随后 第 一 条 指令 所 用 的 源 操作 数 ,对 应 的 转发 条 件 如 下 : 


C1(A): (Ex/Mem.regRd=ID/Ex.Rs) 

C1(B): (Ex/Mem.regRd=ID/Ex.Rt) 

当 C1(A)=1 时 ,ALUSrcA 应 等 于 01; 当 C1(B) 二 1 时 ,ALUSrcB 应 等 于 01。 

(2) 本 条 指令 的 目的 操作 数 是 随后 第 二 条 指令 所 用 的 源 操作 数 ,对 应 的 转发 条 件 如 下 : 


C2(A): (Mem/Wr.regRd=ID/Ex.Rs) 
C2(B): (Mem/Wr.regRd=ID/Ex.Rt) 


指 倒流 水 线 


当 C2(A)==1 时 ,ALUSrcA 应 等 于 10; 当 C2(B)==1 时 ,ALUSrcB 应 等 于 10。 

当 C1(A) 和 C2(A) 都 不 等 于 1 时 ,ALUSrcA 应 等 于 00。 当 C1(B) 和 C2(B) 都 不 等 于 
1 时 , ALUSrcB 应 根据 ALUSrc 的 值 确 定 , 当 ALUSrc = 二 0 时 , ALUSrcB 等 于 00; 当 
ALUSrc=1 时 ,ALUSrcB 等 于 11。 

以 上 考虑 的 仅 是 基本 的 数据 相关 情况 。 实 际 上 ,转发 条 件 还 要 考虑 其 他 一 些 约束 情况 ， 
以 下 是 一 些 例 子 。 

(1) 运算 结果 不 写 人 目的 寄存 器 。 例 如 ,对 于 beq 指令 后 面 紧 跟 一 条 ALU 运算 类 指令 
的 情况 ,虽然 可 能 满足 上 述 条 件 ,但 是 beq 指令 并 不 改变 目的 寄存 器 Rt 的 值 ,所 以 ,不 能 进 
行 转发 。 

(2) 目的 寄存 器 为 $0。 例 如 ,对 于 指令 add $0,$7,$8, 根 据 图 6.16 可 知 ,转发 的 是 
$7 和 $8 的 内 容 相 加 的 结果 ,可 能 是 一 个 非 0 数 ,但 实际 上 下 条 指令 的 操作 数 应 该 是 $0 
的 内 容 0。 

(3) 多 条 连续 指令 关于 同一 个 寄存 器 数据 相关 。 例 如 ,对 于 下 列 指令 序列 : 


add $1, $1, $2 
add $1, $1, $3 
add $1, $1, $4 


按照 前 述 C1(A) 和 C2(A) 的 逻辑 表达 式 , 可 得 C1(A)=C2(A)=1, 这 样 ,使 得 
ALUSrcA 的 取 值 不 确定 而 发 生 错 误 。 显 然 ,这 种 情况 下 ,应 该 使 C1(A)==1,C2(A)==0， 
即 , 当 本 条 指令 源 操作 数 和 上 一 条 指令 的 目的 操作 数 一 样 , 则 不 能 转发 上 上 条 指令 的 结果 ， 
而 必须 转发 上 一 条 指令 的 结果 。 

综合 考虑 上 述 各 种 情况 ,得 到 改进 的 转发 条 件 逻 辑 表达 式 如 下 。 


C1 (A): Ex/Mem.RegWr and (Ex/Mem.RegRd0) and (Ex/Mem.RegRd=ID/Ex.Rs) 
C1(B): Ex/Mem.RegWr and (Ex/Mem.RegRd0) and (Ex/Mem.RegRd=ID/Ex.Rt) 
C2(A): Mem/Wr .RegWr and (Mem/Wr .RegRd 天 0) and 
(Ex/Mem.RegRd 天 ID/Ex .Rs) and (Mem/Wr .RegRd=ID/Ex.Rs) 
C1(B): Mem/Wr .RegWr and (Mem/Wr .RegRd 天 0) and 
(Ex/Mem.RegRdID/Ex .Rt) and (Mem/Wr .RegRd=ID/Ex.Rt) 


通过 上 述 转 发 条 件 的 检测 和 对 相应 的 转发 线路 的 控制 ,可 以 解决 大 部 分 RAW 数据 
冒险 。 

4. Load-use 数据 冒险 的 检测 和 处 理 

转发 能 够 解决 大 部 分 RAW 数据 冒险 ,那么 ,lw 指令 随后 跟 R- 型 指令 或 工 型 运算 类 指 
令 的 相关 性 问题 能 否 通过 转发 来 解决 呢 ? 如 图 6.17 hn 只 有 在 Mem 段 结束 时 才 
能 得 到 DM 中 的 结果 ,然后 送 Mem/ Wr 寄存 器 ,在 Wr 段 前 半 周 期 $1 中 才能 存 和 新 值 ,但 
随后 的 sub 指令 在 Ex 阶段 就 要 取 $1 的 值 ,因此 ,得 到 的 是 旧 值 ,而 根据 图 6. 15 的 转发 线 
路 ,ALU 的 输入 端 要 么 来 自 上 一 条 指令 在 Ex 段 生成 的 .存放 在 Ex/Mem 寄存 器 中 的 值 ,要 
么 来 自 上 上 条 指令 的 执行 结果 。 由 此 可 知 ,用 转发 线路 无 法 解决 图 中 lw 指令 和 sub 指令 之 
间 的 数据 相关 问题 。 通 常 把 这 种 情况 称 为 Load-use 数据 冒险 。 

对 于 Load-use 数据 冒险 ,最 简单 的 做 法 是 由 编译 器 在 load 指令 之 前 插入 nop 指令 来 
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图 6.17 Load-use 数 据 冒 险 


解决 ,这 样 , 就 无 须 硬 件 来 处 理 数据 冒险 问题 。 当 然 , 最 好 的 办 法 是 在 程序 编译 时 进行 优化 ， 
通过 调整 指令 顺序 以 避免 出 现 Load-use 现象 。 
例 6.1 以 下 是 某 高 级 语言 源 程序 中 的 两 条 赋值 语句 。 


a=b+c; 


d=e-f; 


假定 a.b、c.d、e、f 都 被 分 配 在 内 存 ,其 地 址 分 别 用 [aj、[bj、[Lej、[dj、[Lej、[{ 表 示 , 通 
过 编译 器 编译 后 ,生成 的 汇编 目标 代码 (为 说 明 方 便 起 见 ,在 第 一 列 加 了 序号 ) 如 下 : 


lw $2, [b] 

lw $3 [el 

add $1, $2, $3 

Sw $1, [a] 

$5, [el 
1w $6, [£] 
Sub $4, $5, $6 

> Sw $4, [d] 


请 分 析 上 述 目标 代码 中 的 数据 相关 性 ,并 说 明 哪 些 相关 性 引起 的 数据 冒险 可 通过 转发 
技术 解决 ,哪些 不 能 ? 并 要 求 进行 代码 优化 ,以 尽量 减少 Load-use 数据 冒险 。 

解 : 上 述 目标 代码 中 , 发生 数 据 相 关 的 指令 对 是 1-3、2-3、3-4、5-7、6-7、7-8。 其 中 ， 
2-3 和 6-7 两 个 指令 对 之 间 出 现 了 Load-use 数据 冒险 ,它们 不 能 通过 转发 技术 解决 ,其 他 指 
令 对 之 间 的 相关 性 引起 的 数据 冒险 都 可 通过 转发 技术 解决 。 

可 通过 调整 指令 顺序 ,将 一 条 无 关 指 令 插 入 Load 和 R- 型 指令 之 间 来 优化 代码 ,以 避免 
Load-use 现象 。 本 例 中 通过 将 第 5 条 指令 和 第 4 条 指令 分 别 插入 2-3 和 6-7 指令 对 中 间 来 
优化 。 以 下 是 编译 优化 得 到 的 目标 代码 。 


1w $2, [b] 
1w $3, [c] 
$5, [el 
add $1, $2, $3 


co auwm 必 mw N pp 
户 
马 


WN 哺 
四 
怠 


背 仿 流水 线 


兴 1w $6, [f£] 
4. Sw $1, [a] 
3 sub $4, $5, $6 
8. Sw $4, [dl 


显然 ,优化 后 的 指令 序列 比 优 化 前 的 指令 序列 在 流水 线 中 执行 速度 快 。 据 统计 ,优化 调 
度 后 ,Load-use 冒险 引起 的 阻塞 现象 大 约 能 降低 1/2 一 1/3。 由 此 可 见 ,编译 优化 对 程序 的 
性 能 是 非常 重要 的 ,而 了 解 指令 的 功能 、 指 令 执 行 流程 和 流水 线 结 构 等 对 构造 良好 的 编译 器 
又 是 极其 必要 的 。 

如 果 需 要 硬件 来 处 理 Load-use 冒险 ,必须 在 流水 线 数据 通路 中 增加 Load-use 冒险 检 
测 部 件 ,并 在 检测 到 发 生 Load-use 冒险 时 进行 流水 线 阻塞 处 理 。 从 图 6. 17 可 以 看 出 ， 
Load-use 冒险 发 生 的 条 件 是 ,上 一 条 是 Load 指令 ,并 且 从 存储 器 装 入 寄存 器 的 数据 是 当前 
指令 的 源 操作 数 。Load-use 冒险 的 检测 越 早 越 好 ,但 是 ,再 早 也 要 在 取出 指令 之 后 ,因此 ， 
其 检测 点 可 安排 在 每 条 指令 的 译 码 (ID) 阶 段 。 此 时 ,若是 Load-use 冒险 , 则 Load 指令 应 处 
于 执行 (Ex) 阶段 。 为 了 能 够 确定 上 一 条 是 否 是 Load 指令 ,引入 一 个 新 的 控制 信号 
MemRead, 上 一 条 是 Load 指令 时 该 信号 取 值 为 1, 否 则 取 值 为 0。 

根据 上 述 分 析 ,得 到 Load-use 冒险 检测 条 件 C 如 下 : 


ID/Ex .MemRead and ( (ID/Ex .Rt=IF/ID.Rs) or (ID/Ex.Rt=IF/ID.Rt)) 


当 C=1 时 ,说 明 发 生 了 Load-used 数据 冒险 。 检 测 出 Load-use 数据 冒险 时 ,Load 指 
令 后 面 的 第 一 条 指令 (如 图 6. 17 中 的 sub 指令 ) 正 在 ID 阶段 进行 译 码 和 取 数 操作 ,下 一 个 
时 钟 到 来 时 , 译 码 出 来 的 控制 信号 和 寄存 器 Rs、Rt 的 值 将 被 送 到 ID/Ex 流水 段 寄 存 器 , 同 
时 ,Load 后 面 的 第 二 条 指令 (如 图 6. 17 中 的 or 指令 ) 处 在 IF 阶段 ,正在 根据 PC 的 值 取 指 
令 , 下 一 个 时 钟 到 来 时 ,取出 的 指令 将 被 送 到 IF/ID 流水 段 寄存 器 。 为 了 避免 Load-use 数 
据 冒 险 , 必 须 使 紧 随 Load 后 的 两 条 指令 停顿 一 个 时 钟 周期 后 继续 执行 。 这 可 通过 将 这 两 
条 指令 的 执行 结果 清除 并 让 它们 延迟 一 个 时 钟 周期 来 实现 。 具 体 来 说 ,就 是 控制 实现 以 下 
3 个 操作 : @ 将 ID/Ex 流水 段 寄 存 器 中 的 所 有 控制 信号 清 零 ( 相 当 于 插入 了 一 个 气泡 ), 而 
不 是 将 当时 译 码 出 来 的 控制 信号 送 ID/Ex 流水 段 寄 存 器 ; @ 保 持 IF/ID 流水 段 寄存 器 的 值 
不 变 , 而 不 是 送 入 当时 取出 的 指令 ,这 样 ,使 Load 后 面 的 一 条 指令 继续 保存 在 IF/ID 流水 
段 寄存 器 中 ,在 下 一 个 时 钟 周期 ,该 指令 重新 译 码 / 取 数 ; 四 保持 PC 的 值 不 变 , 使 Load 后 
面 的 第 二 条 指令 在 下 一 个 时 钟 周期 重新 执行 取 指 令 操 作 。 图 6. 18 给 出 了 带 转发 和 Load- 
use 冒险 处 理 的 部 分 流水 线 数据 通路 。 从 图 中 可 以 看 出 , 当 检 测 到 存在 Load-use 数据 冒险 
时 ,Load-use 检测 单元 送出 3 个 控制 信号 ,分 别 控制 上 述 3 个 操作 的 实现 。 


6.3.3 控制 冒险 


从 图 6.5 给 出 的 流水 线 数据 通路 来 看 ,正常 情况 下 ,指令 在 流水 线 中 总 是 按 顺 序 执行 ， 
当 遇 到 改变 指令 执行 顺序 的 情况 时 ,流水 线 中 指令 的 正常 执行 会 被 阻塞 。 这 种 由 于 发 生 了 
指令 执行 顺序 改变 而 引起 的 流水 线 阻 塞 称 为 控制 冒险 (control hazards)。 各 类 转移 指令 ( 包 
括 调用 、 返 回 指令 等 ) 的 执行 ,以 及 异常 和 中 断 的 出 现 都 会 改变 指令 执行 顺序 ,因而 都 可 能 会 
引发 控制 冒险 。 
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图 6. 18 带 转发 和 Load-use 冒险 处 理 的 部 分 流水 线 数据 通路 


1. 转移 指令 引起 的 控制 冒险 
图 6. 19 是 一 个 由 分 支 指令 (条 件 转移 指令 ) 引 起 的 控制 冒险 的 流水 线 例子 。 





时 钟 周 期 | 1 | 2 1 3 1415 11161789 1 
gsub| IF | ID | Ex | Mem | Wr 














12:beq IF ID Ex Mem | Wr 
16:ori ZN DEB Mem | Wr 
20:add 2 ID Ex Mem | Wr 


24add GH wD | Ex | Mem| Wr 
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图 6.19 分 支 指令 引起 的 控制 冒险 的 流水 线 例子 








图 6. 19 中 ,假定 beq 指令 的 地 址 为 12, 条 件 满足 时 其 转移 目标 地 址 为 1000。 从 图 6. 5 
和 图 6.7 可 以 看 出 ,分 支 指令 beq 的 转移 目标 地 址 计算 操作 在 Ex 段 ,并 在 Mem 段 由 标志 
Zero 和 控制 信号 Branch 来 控制 ,以 确定 是 否 将 PC 的 值 更 新 为 转移 目标 地 址 。 因 此 ,在 
图 6. 19 所 示 的 例子 中 ,只 有 当 beq 指令 执行 到 第 5 时 钟 结束 才能 将 转移 目标 地 址 1000 送 
到 PC 的 输入 端 ,在 第 6 时 钟 到 来 后 ,取出 1000 号 单元 开始 的 指令 送 流水 线 中 执行 。 此 时 ， 
紧 接 在 beq 后 面 的 第 16、20 和 24 单元 的 指令 已 在 流水 线 中 被 执行 了 一 部 分 。 显 然 ,正确 的 
执行 流程 应 该 是 第 12 单元 中 的 beq 指令 执行 完 后 转移 到 第 1000 单元 执行 ,因此 ,如 果 不 采 


指 会 流水 线 


取 相 应 措施 , 则 指令 流水 线 的 执行 便 发 生 问 题 。 通 常 把 由 于 流水 线 阻塞 而 带 来 的 延迟 执行 
周期 数 称 为 延迟 损失 时 间 片 C。 显 然 , 图 6. 19 中 的 延迟 损失 时 间 片 C 一 3。 

由 于 指令 分 支 而 引起 的 控制 冒险 也 称 为 分 支 冒 险 (branch hazard) 。 对 于 分 支 冒 险 , 可 
采用 和 前 面 解决 数据 冒险 一 样 的 硬件 阻塞 方式 (插入 气泡 ) 或 软件 阻塞 方式 (插入 空 操 作 指 
令 )。 即 ,假设 延迟 损失 时 间 片 为 C, 则 在 数据 通路 中 检测 到 分 支 指 令 时 ,就 在 分 支 指令 后 插 
入 C 个 气泡 ,或 在 编译 时 在 分 支 指令 后 填 人 C 条 nop 指令 。 

插入 气泡 和 插入 空 操作 指令 这 两 种 都 是 消极 的 方式 ,效率 较 低 。 结 合 分 支 预测 可 以 降 
低 由 于 分 支 冒险 带 来 的 时 间 损 失 ,分 支 预测 有 简单 (静态 ) 预 测 和 动态 预测 两 种 。 此 外 ,还 有 
延迟 分 支 方式 也 可 部 分 解决 分 支 冒 险 问题 。 

1) 简单 预测 

简单 预测 与 指令 执行 历史 无 关 , 因 此 , 它 是 一 种 静态 预测 方式 。 可 以 简单 预测 分 支 指令 
的 条 件 总 是 不 满足 (not taken) 或 总 是 满足 (taken) 。 对 于 预测 不 满足 的 情况 ,流水 线 总 是 按 
顺序 继续 执行 分 支 指令 的 后 续 指 令 , 如 果 在 数据 通路 中 检测 到 实际 条 件 确实 不 满足 时 , 则 预 
测 正确 ,没有 任何 时 间 损 失 ; 如 果 检 测 到 实际 条 件 满足 时 , 则 预测 不 正确 ,此 时 ,将 分 支 指令 
后 续 不 该 执行 的 指令 (如 图 6. 19 中 的 第 16 .20、24 单元 中 的 指令 ) 的 控制 信号 清 零 ,实际 上 
只 需要 将 寄存 器 写 信 号 Reg Wr 和 存储 器 写 信号 MemWr 清 零 ,就 能 保证 不 会 改变 指令 执行 
结果 ,相当 于 执行 了 空 操作 。 这 样 ,如 果 分 支 延 迟 损失 时 间 片 为 3 的 话 , 则 预测 错误 时 将 损 
失 3 个 时 钟 周期 。 

简单 预测 方式 下 ,如果 转移 概率 是 50%% , 则 预测 正确 率 仅 有 50% 。 当 然 , 也 可 以 加 一 些 
启发 式 规则 来 提高 简单 预测 准确 率 。 可 以 进行 一 些 有 条 件 的 简单 预测 , 即 在 有 些 情况 下 预 
测 总 是 满足 ,其 他 情况 预测 总 是 不 满足 。 例 如 ,将 循环 体 项 ( 底 ) 部 的 分 支 总 是 预测 为 不 满足 
(满足 )。 这 种 方法 能 达到 65% 一 85%% 的 预测 准确 率 。 

2) 动态 预测 

动态 预测 (dynamic prediction) 的 准确 率 可 达 90% ,现在 几乎 所 有 处 理 器 都 采用 动态 预 
测 。 它 利用 分 支 指令 发 生 转 移 的 历史 情况 来 进行 预测 ,并 根据 实际 执行 情况 动态 调整 预测 
位 。 转 移 发 生 历 史 情 况 记录 在 一 个 表 中 ,这 个 表 有 不 同 的 名 称 , 如 分 支 历 史记 录 表 (Branch 
History Table, BHT) 、 分 支 预 测 缓 冲 (Branch Prediction Buffer, BPB)、 分 支 目 标 缓 冲 
(Branch Target Buffer,BTB) 等 。 图 6. 20 给 出 了 动态 预测 和 调整 过 程 。 

每 个 表 项 由 分 支 指令 的 地 址 作 索 引 , 故 在 分 支 指令 的 I 阶段 就 可 取 到 预测 位 。 因 此 ， 
完全 来 得 及 在 分 支 指令 进入 ID 阶段 时 去 取 被 预测 的 指令 。 首 先 ,根据 当前 分 支 指令 的 地 址 
低位 查找 BHT 中 对 应 的 项 ;车 未 找到 ( 即 “ 未 命中 ”) ,说 明 该 分 支 指令 是 第 一 次 执行 , 则 由 
控制 逻辑 加 入 一 个 新 项 ,将 该 分 支 指令 的 地 址 低位 转移 目 标 地 址 和 初始 预测 位 填 入 表 项 
中 ;车 找到 ( 即 “ 命 中 ”) , 则 控制 逻辑 根据 预测 位 ,确定 是 “转移 取 ” 还 是 “顺序 取 ”; 在 分 支 指令 
执行 时 ,控制 逻辑 根据 实际 情况 来 修改 调整 预测 位 。 预 测 位 的 宽度 对 动态 预测 准确 率 有 影 
响 。 有 一 位 、 两 位 预测 位 ,也 有 的 系统 采用 两 位 以 上 预测 位 。 

(1) 一 位 预测 位 。 

采用 一 位 预测 位 时 ,总 是 按 上 次 实际 发 生 的 情况 来 预测 下 次 分 支 情 况 , 可 用 1 表示 最 近 
一 次 发 生 转移 (taken) ,0 表示 未 发 生 转移 (not taken) 。 

预测 时 ,车 预测 位 为 1, 则 预测 下 次 条 件 满足 ,会 发 生 转 移 ;车 为 0, 则 预测 下 次 条 件 不 满 
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7 分 支 历史 记录 表 BHT 
指令 分 支 指令 地 址 | 预测 位 “ 隘 移 目标 地 址 
地 址 
Q@ 查找 一 | 转移 取 顺序 取 
本 ; 指令 预 取 器 
mA 新 大 入 jem T 
控制 逻辑 | 多 选 择 























命中 与 否 ce 指令 执行 
人 实际 执行 情况 
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图 6.20 动态 预测 和 调整 过 程 示意 图 


足 ,不 会 发 生 转移 。 实 际 执行 时 , 若 预 测 错 , 则 预测 
位 取 反 ;否则 ,预测 位 不 变 。 可 用 一 个 简单 的 预测 状 
态 图 表示 预测 位 的 动态 调整 过 程 ,如 图 6. 21 所 示 。 
采用 一 位 预测 位 的 缺点 是 , 当 分 支 情况 连续 两 发 生 ”错误 
次 发 生 改 变 时 , 则 预测 错误 。 例 如 ,对 于 循环 出 口 处 ”图 6.21 一 位 预测 位 的 状态 转换 图 
的 分 支 指令 ,第 一 次 进 循环 和 最 后 一 次 出 循环 时 都 
会 发 生 预测 错误 ,因为 这 两 次 都 会 改变 分 支 情况 ;而 在 循环 中 每 次 预测 都 不 会 错 ,因为 预测 
和 实际 的 情况 都 是 发 生 转移 。 
例 6.2 图 6.22 给 出 了 某 个 C 语言 程序 段 及 其 对 应 的 MIPS 汇编 代码 。 假 定 该 程序 
在 一 个 采用 一 位 预测 位 的 流水 线 处 理 器 上 执行 ,预测 位 初始 为 0。 试 分 析 当 N=10 和 N= 
100 时 该 程序 段 中 各 分 支 指令 的 预测 正确 率 。 



































Loop-i:beq $t1l,$a0, exit-i  # 若 (i=N) 则 跳出 外 循环 
int sum(int N) add $t2, $zero, $zero # j=0 
让 Loop-j:beq $t2, $a0, exit-j # 若 (=N) 则 跳出 内 循环 
int i, j, sum=0; addi $t27 St27 了 # j=j+1 
for (i=0; i <N; i++) addi $t0, $t0, 1 # sum=sum+1 
for (j=0; j <N; j++) j Loop-j 
sum=sumt+1; exit-j:addi $t1, $t1, 1 # =i+1 
return sum; Jj Loop- 主 
} [4 
(a) C 语 言 程序 段 (b) 汇编 程序 段 


图 6.22 循环 中 分 支 指令 的 预测 


解 : 该 程序 具有 两 重 循环 结构 ,每 层 循环 中 有 一 个 分 支 指令 ,位 于 循环 入 口 处 。 外 循环 
中 的 分 支 指令 共 执 行 N 十 1 次 ,内 循环 中 的 分 支 指令 共 执 行 NX(N 十 1) 次 。 
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预测 位 初始 为 0 ,根据 一 位 预测 位 状态 转换 图 可 知 ,外 循环 中 的 分 支 指令 只 有 最 后 一 次 
预测 错误 ,其 余 都 预测 正确 ;而 对 于 内 循环 中 的 分 支 指令 ,每 次 跳出 内 循环 时 预测 位 变 为 1， 
再 进入 内 循环 时 ,第 一 次 总 是 预测 错误 ,并 且 任 何 一 次 循环 的 最 后 一 次 总 是 预测 错误 ,因此 ， 
总 共有 1 十 2X(N 一 1) 次 预测 错误 。 

当 N=10 时 ,外 循环 中 分 支 指令 的 预测 正确 率 约 为 10/11X100% 二 90.9%; 内 循环 中 
分 支 指令 的 预测 正确 率 约 为 (110 一 19)/110X100% 二 82.7%。 

当 N=100 时 ,外 循环 中 分 支 指 令 的 预测 正确 率 约 为 100/101X100% 二 99%; 内 循环 中 
分 支 指 令 的 预测 正确 率 约 为 (10100 一 199)/10100 X100% 二 98%。 

(2) 两 位 预测 位 。 

用 两 位 组 合成 4 种 情况 来 表示 预测 和 实际 转移 
的 状态 ,图 6.23 所 示 为 两 位 预测 位 的 状态 转换 图 。 

4 个 状态 中 ,有 两 个 状态 预测 发 生 转 移 , 有 两 个 
状态 预测 不 发 生 转 移 。 假 定 11 状态 表示 预测 发 生 
( 强 转 移 ) ,实际 不 发 生 时 , 转 到 状态 10( 弱 转移 ) ,下 
次 仍 预测 发 生 转 移 , 如 果 再 次 预测 错误 ( 即 实际 不 发 
生 ) , 才 使 下 次 预测 调整 为 00 状态 ( 强 不 转移 )。 从 
图 6. 23 可 看 出 ,只 有 两 次 预测 错误 才 改 变 预 测 
方向 。 

采用 两 位 预测 可 避免 一 位 预测 时 出 现 的 一 些 问题 ,使 得 在 连续 两 次 发 生 不 同 的 分 支 情 
况 时 也 可 能 会 预测 正确 。 

例 6.3 对 于 图 6. 22 给 出 的 程序 ,假定 运行 在 一 个 采用 两 位 预测 位 的 流水 线 处 理 器 上 ， 
预测 位 初始 为 00。 试 分 析 当 N==10 和 N= 二 100 时 该 程序 段 中 各 分 支 指令 的 预测 正确 率 。 

解 : 预测 位 初始 为 00, 根 据 两 位 预测 位 状态 转换 图 可 知 ,外 循环 中 的 分 支 指令 只 有 最 后 
一 次 预测 错误 ,其 余 都 预测 正确 ;而 对 于 内 循环 中 的 分 支 指令 ,每 次 跳出 内 循环 时 预测 位 变 
为 01 ,预测 不 发 生 ,再 进入 内 循环 时 ,第 一 次 分 支 指令 实际 上 也 不 发 生 转 移 , 预 测 正确 ,而 且 
预测 状态 变 回 00, 因 而 又 保证 下 次 跳出 内 循环 后 再 进入 时 ,第 一 次 总 是 预测 正确 ,所 以 ,对 
于 内 循环 总 是 只 有 最 后 一 次 预测 错误 ,总 共有 N 次 预测 错误 。 

当 N=10 时 ,外 循环 中 分 支 指 令 的 预测 正确 率 约 为 10/11X100% 二 90.9%; 内 循环 中 
分 支 指令 的 预测 正确 率 约 为 (110 一 10)/110X100%==90. 9%。 

当 N=100 时 ,外 循环 中 分 支 指令 的 预测 正确 率 约 为 100/101X100% 二 99%; 内 循环 中 
分 支 指令 的 预测 正确 率 约 为 (10100 一 100)/10100X100% 二 99%。 

由 此 可 见 , 两 位 预测 位 方式 下 ,内 循环 分 支 指令 的 预测 正确 率 基本 上 与 外 循环 的 相当 ;而 
一 位 预测 位 方式 下 ,内 循环 中 分 支 指令 的 预测 正确 率 远 不 及 外 循环 分 支 指令 的 预测 正确 率 。 

目前 ,采用 比较 多 的 是 两 位 预测 位 ,也 有 的 系统 采用 两 位 以 上 预测 位 ,如 Pentium 4 的 
BTB2 采用 了 4 位 预测 位 。 

注意 ,采用 分 支 预测 方式 时 ,流水 线 控制 逻辑 必须 确保 错误 预测 指令 的 执行 结果 不 能 生 
效 , 而 且 要 能 从 正确 的 分 支 地 址 处 重新 启动 流水 线 工作 。 

3) 延迟 分 支 

除了 上 述 介 绍 的 预测 结合 硬件 阻塞 和 软件 插入 空 指令 的 方法 外 ,还 可 以 采用 延迟 分 支 











图 6.23 两 位 预测 位 的 状态 转换 图 
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(delayed branch) 的 方法 来 解决 分 支 冒 险 。 其 主要 思想 是 ,采用 编译 优化 来 调整 指令 顺序 ， 
把 分 支 指令 前 与 分 支 指令 无 关 的 指令 调 到 分 支 指令 后 面 执行 ,以 填充 延迟 损失 时 间 片 ,不够 
时 用 nop 操作 填充 。 分 支 指令 后 面 被 填 的 指令 位 置 称 为 分 支 延 迟 槽 (branch delay slot) , 需 
要 填 人 的 指令 条 数 ( 即 分支 延 迟 槽 数 ) 等 于 延迟 损失 时 间 片 。 

因为 延迟 分 支 技术 通过 编译 器 重 排 指令 顺序 来 实现 ,所 以 它 属 于 静态 调度 技术 。 图 6. 24 
给 出 了 一 个 分 支 延迟 调度 的 例子 。 该 例假 定 流 水 线 的 分 支 延 迟 损失 时 间 片 为 2。 从 图 6. 24 
可 看 出 ,在 beq 指令 前 的 所 有 指令 中 ,可 以 插 到 beq 指令 后 .add 指令 前 的 只 有 第 一 条 lw 指 
令 和 sub 指令, 但 是 ,如 果 把 这 两 条 指令 都 调 过 去 , 则 第 2 条 lw 指令 和 beq 指令 就 会 形成 
Load-use 数据 冒险 ,因此 ,只 能 有 一 条 指令 填 人 分 支 延 迟 槽 ,另外 还 需 再 加 一 条 nop 指令 ， 
以 填充 分 支 延 迟 损失 时 间 片 。 








lw $1, 0($2) 1w $3, 0($2) 
lw $3, 0($2) sub $6, $4, $2 


sub $6, $4, $2 beq $3, $5,2 
beq $3, $5,2 调度 后 lw $1, 0($2) 
add $3, $3,$2 nop 





Sw $1, 0($2) add $3, $3,$2 
Sw $1, 0($2) 




















图 6.24 分 支 延 迟 调度 的 一 个 例子 


对 于 分 支 冒险 来 说 ,分 支 延迟 损失 时 间 片 是 影响 流水 线 执 行 效率 的 重要 因素 。 分 支 延 
迟 损失 时 间 片 越 小 ,插入 的 气泡 或 nop 指令 越 少 ,在 预测 错误 时 后 退 的 指令 条 数 越 少 ,在 分 
支 延迟 方式 下 ,调度 到 分 支 延 迟 槽 的 无 关 指令 条 数 越 少 。 例 如 ,图 6. 24 中 假定 分 支 延迟 损 
失 时 间 片 减少 为 1, 则 不 需 填 人 nop 指令 。 

减少 分 支 延迟 损失 时 间 片 的 关键 是 尽量 提早 进行 分 支 条件 的 预测 。 例 如 ,在 图 6. 5 所 
示 的 流水 线 数据 通路 中 ,分 支 指令 beq 的 条 件 检测 在 Mem 阶段 进行 ,因而 得 到 分 支 延 迟 损 
失 时 间 片 为 3。 如 果 把 检测 操作 往 前 调 到 Ex 段 , 甚 至 提前 到 ID 段 , 则 可 将 分 支 延 迟 损失 时 
间 片 减少 到 2 ,甚至 减 为 1。 

2. 异常 或 中 断 引 起 的 控制 冒险 

除了 上 面 介 绍 的 由 于 分 支 指令 引起 的 控制 冒险 外 ,还 有 异常 或 中 断 引 起 的 控制 冒险 。 

异常 和 中 断 的 出 现 会 改变 程序 的 执行 流程 ,使 得 流水 线 执行 发 生 阻塞 。 与 分 支 冒 险 一 
样 , 当 某 条 指令 执行 过 程 中 发 现 异 常 或 中 断 时 ,可 能 它 后 面 的 多 条 指令 已 经 被 取 到 流水 线 中 
正在 执行 。 例 如 ,ALU 运算 类 指令 发 现 * 溢 出 ?时 ,已 经 到 Exec 阶段 的 结束 了 ,此 时 , 它 后 面 
已 有 两 条 指令 进入 了 流水 线 。 

通过 在 数据 通路 的 不 同 流水 段 中 加 入 相应 的 检测 逻辑 可 检测 出 哪 条 指令 发 生 了 异常 。 
例如 ,溢出 ?可 在 Exec 段 检 出 ;“ 无 效 指令 ”可 在 ID 段 检 出 ;“ 除 数 为 0” 可 在 ID 段 检 出 六 无 
效 指 令 地 址 ”可 在 I 有 段 检 出 ;“ 无 效 数据 地 址 ”可 在 Load/Store 指令 的 Exec 段 检 出 。 检 测 
出 异常 的 那个 流水 段 正 在 执行 的 指令 就 是 发 生 异 常 的 指令 。 外 部 中 断 的 检测 可 以 放 在 第 一 
个 流水 段 正 或 最 后 一 个 流水 段 Wr 中 进行 。 若 放 在 I 中 检测 ,因为 可 在 取 指 令 前 进行 , 若 
发 现 有 中 断 请 求 发 生 , 则 能 确保 在 该 时 钟 周 期 就 开始 执行 中 断 服务 程序 ,并 让 已 经 在 流水 线 
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中 的 指令 继续 执行 完 , 不 需要 进行 指令 冲刷 ;车 放 在 Wr 阶段 进行 , 则 需要 将 刚 执 行 完 的 指 
令 后 面 几 条 指令 从 流水 线 中 清除 掉 。 

对 于 图 6.5 所 示 的 五 段 流 水 线 处 理 器 ,任何 一 个 时 钟 周期 都 有 5 条 活动 的 指令 ,因而 很 
可 能 在 一 个 时 钟 周期 内 同时 有 多 条 指令 发 生 异常 或 中 断 , 不 同 流水 段 发 生 不 同类 型 的 异常 。 
例如 ,在 Ex 阶段 add 指令 发 生 “ 溢 出 ”的 同时 ,ID 阶段 的 指令 发 生 了 “无 效 指令 ”,Mem 阶段 
的 lw 指令 发 生 了 * 缺 页 ”, 并 且 又 发 生 了 外 设 1/O 中 断 请 求 。 上 述 这 种 情况 下 ,显然 应 该 先 
响应 和 处 理 lw 指令 的 “ 缺 页 ”异常 。 对 于 这 种 同时 发 生 多 个 异常 和 中 断 的 情况 ,最 关键 的 问 
题 是 要 确定 哪 条 指令 的 异常 应 最 先 被 响应 和 处 理 。 显 然 , 排 在 前 面 的 指令 发 生 异 常 的 响应 
优先 级 高 ,因此 ,优先 级 确定 原则 是 ,在 同一 个 时 钟 周期 内 的 指令 序列 中 ,最 先 执行 的 指令 所 
产生 的 异常 最 先 被 响应 ,外 部 中 断 请 求 最 后 响应 , 即 , 对 同时 在 5 个 指令 流水 段 中 发 生 的 异 
常 进行 排序 时 ,其 顺序 为 Wr>Mem>>Ex>ID>IF。 

处 理 器 硬件 对 异常 和 中 断 引起 的 冒险 的 处 理 大 致 的 做 法 如 下 : 当 检 测 到 有 异常 或 中 断 
后 ,首先 ,清除 发 生 异 常 的 指令 以 及 其 后 在 流水 线 中 的 所 有 指令 ,然后 保存 断 点 ,并 将 异常 处 
理 程序 的 首 地 址 送 PC 的 输入 端 。 指 令 清 除 的 方式 和 上 述 分 支 预测 错误 时 指令 清除 方式 类 
似 , 通 常 是 通过 相应 的 冲刷 (Flush) 控 制 信号 将 指令 或 指令 的 控制 信号 清 零 (主要 保证 写 信 
号 RegWr 和 MemWr 清 零 ) 来 实现 。 

许多 处 理 器 都 能 提供 一 种 精确 的 异常 和 中 断 的 方式 。 所 谓 精 确 的 异常 和 中 断 , 是 指 处 
理 器 能 够 确定 异常 和 中 断 发 生 的 精确 位 置 , 即 , 处 理 器 响应 异常 和 中 断 时 ,所 保存 的 断 点 是 
精确 的 返回 地 址 。 因 为 以 流水 线 方式 执行 指令 时 ,异常 可 能 发 生 在 不 同 的 阶段 ,因而 会 产生 
一 些 潜在 的 危险 。 例 如 ,在 图 6. 5 所 示 的 五 段 流水 线 处 理 器 中 ,假定 正在 执行 指令 序列 为 
lw-add-ori-… ,而 且 lw 指令 将 在 Mem 段 发 生 “ 缺 页 ”,add 指令 将 在 Ex 段 发 生 “ 溢 出 ”,ori 
指令 将 在 下段 发 生 “ 指 令 地 址 越界 ”。 这 种 情况 下 , 按 正确 的 处 理 顺 序 ,应 该 先 处 理 lw 指令 
的 异常 。 但 是 ,因为 ori 指令 处 于 IF 段 时 ,lw 才 处 于 Ex 段 ,add 才 处 于 ID 段 , 因 此 ,此 时 
ori 前 面 的 两 条 指令 都 还 没有 发 生 异 常 。 如 果 马 上 就 处 理 ori 指令 的 异常 , 则 add 指令 和 lw 
指令 的 异常 就 被 忽略 ,从 而 导致 程序 被 错误 执行 。 因 此 ,通常 的 做 法 是 ,每 个 时 钟 周期 
内 ,在 多 个 流水 段 发 生 的 异常 的 原因 和 断 点 只 是 被 记录 到 特定 的 寄存 器 中 ,并 将 发 生 蜡 
常 的 标记 同时 记录 到 流水 段 寄 存 器 ,发 生 异 常 的 指令 继续 在 流水 线 中 执行 ,直到 执行 到 
最 后 一 个 阶段 ,由 最 后 阶段 内 的 硬件 检测 本 指令 是 否 发 生 过 异常 或 此 时 是 否 有 外 部 中 断 
发 生 , 若 有 , 则 清除 流水 线 中 后 面 所 有 阶段 正在 执行 的 指令 ,然后 转 到 相应 的 异常 处 理 程 
序 执行 。 

及 时 检测 到 “异常 ”并 进行 处 理 是 非常 重要 的 ,否则 将 会 发 生 错 误 。 例如 ,在 执行 
lw $1,0($1) 时 , 若 没有 及 时 捕获 到 “ 缺 页 ?或 没有 及 时 冲刷 RegWr 等 控制 信号 , 则 可 能 会 
使 $1 改变 其 值 ,再 重新 执行 该 指令 时 ,所 读 的 内 存单 元 地 址 可 能 被 改变 而 发 生 严重 错误 。 

至 此 已 经 讨论 了 单 周 期 .多 周期 和 流水 线 3 种 处 理 器 实现 方式 ,指令 在 这 3 种 处 理 器 上 
采用 不 同 的 执行 方式 ,得 到 不 同 的 执行 效率 。 从 下 面 的 例子 中 可 以 看 出 ,虽然 单 周期 和 理想 
流水 线 两 种 方式 下 的 CPI 都 是 1, 但 时 钟 周 期 的 宽度 相差 很 大 ,因而 ,同样 的 程序 所 花 时 间 
相差 很 大 。 

例 6.4 假设 数据 通路 中 各 主要 功能 单元 的 操作 时 间 如 下 。 存 储 器 为 400ps;ALU 和 
加 法 器 为 200ps; 寄 存 器 堆 读 口 或 写 口 为 100ps。 假 设 MUX、 控 制 单 元 `. PC、 扩展 器 和 传输 
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线路 等 的 延迟 忽略 不 计 ,程序 中 指令 的 组 成 比例 为 : 取 数 指令 占 25%; 存 数 指令 占 10%; 
ALU 运算 类 指令 占 52% ;分 支 指令 占 11%; 跳 转 指 令 占 2%。 则 下 面 的 实现 方式 中 哪个 更 
快 ? 快 多 少 ? 

(1) 单 周期 方式 (如 图 5. 22 所 示 ) ,每 条 指令 在 一 个 固定 长 度 的 时 钟 周期 内 完成 。 

(2) 多 周期 方式 (如 图 5. 31 所 示 ) ,每 类 指令 时 钟 数 为 : 取 数 一 5 , 存 数 一 4,ALU 一 4, 分 
支 一 3 , 跳 转 一 3。 

(3) 流水 线 方式 (如 图 6. 5 所 示 ), 每 条 指令 分 取 指 令 、 取 数 / 译 码 执行、 存储 器 访问 和 
写 回 5 个 阶段 。 假 定 没 有 结构 冒险 ;数据 冒险 采用 ”转发 ”技术 处 理 ; 分 支 延迟 损失 时 间 片 为 
1 ,预测 准确 率 为 75% ;不 考虑 异常 .中 断 和 访问 失效 引起 的 流水 线 阻塞 。 

解 : CPU 执行 时 间 三 指令 条 数 XCPIX 时 钟 周期 ,对 于 同一 个 程序 ,3 种 方式 的 指令 条 
数 都 一 样 ,因此 只 要 比较 CPI 和 时 钟 周期 即 可 。 

根据 已 知 条 件 , 得 到 各 类 指令 实际 需要 的 执行 时 间 如 下 。 

取 数 指令 : 取 指 400ps 十 寄存 器 读 100ps 十 ALU 运算 200ps 十 取 数 400ps 十 寄存 器 写 
100ps 王 1. 2ns 。 
存 数 指令 : 取 指 400ps 十 寄存 器 读 100ps 十 ALU 运算 200ps 十 存 数 400ps 一 1. lns。 

ALU 指令 : 取 指 400ps 十 寄存 器 读 100ps 十 ALU 运算 200ps 十 寄存 器 写 100ps 王 800ps。 

分 支 指令 : 取 指 400ps 十 寄存 器 读 100ps 十 ALU 运算 200ps 一 700ps。 

跳 转 指令 : 取 指 400ps。 

(1) 单 周 期 方式 下 ,时钟 周 期 由 最 长 的 取 数 指令 确定 ,为 1. 2ns。 因 此 ,N 条 指令 的 执 
行 时 间 为 1.2N 纳 秒 。 

(2) 多 周期 方式 下 ,以 功能 部 件 最 长 所 需 时 间作 为 时 钟 周期 ,因为 存储 器 访问 操作 时 间 
最 长 ,为 400ps, 所 以 ,时 钟 周 期 为 400ps。 根 据 各 类 指令 的 频 度 ,计算 出 平均 时 钟 周 期 数 
如 下 : 














5X25% 十 4X10% 十 4X52% 十 3X11% 十 3X2%=4. 12 

所 以 ,NN 条 指令 的 执行 时 间 为 4. 12X400psXN=1.648N 纳 秒 。 

(3) 流水 线 方式 下 ,流水 线 的 时 钟 周期 取 功 能 部 件 最 长 所 需 时 间 为 400ps。 每 类 指令 所 
需 的 时 钟 数 如 下 。 

取 数 指令 : 当 发 生 Load-use 冒险 时 ,执行 时 间 为 2 个 时 钟 周期 ,否则 为 1 个 时 钟 周 期 ， 
故 平均 执行 时 间 为 1. 5 个 时 钟 周期 。 

存 数 指令 .ALU 指令 : 因为 采用 了 “转发 ”机制 ,所 以 流水 线 不 会 被 阻塞 , 故 只 需 1 个 时 
钟 周期 。 

分 支 指令 : 分 支 延迟 损失 时 间 片 为 1, 因而 预测 错误 时 阻塞 1 个 时 钟 周 期 。 这 样 ,预测 
成 功 时 需 1 个 时 钟 周期 ,预测 错误 时 需 2 个 时 钟 周期 。 平 均 约 为 0.75X1 十 0. 25X2= 
1. 25 个 时 钟 周期 。 

跳 转 指令 : 需 等 到 译 码 阶段 结束 才能 得 到 转移 地 址 , 故 需 2 个 时 钟 周期 。 

因此 ,平均 CPI 为 1.5X25% 十 1X10% 十 1X52% 十 1.25X11% 十 2X2%=1.17。 

所 以 ,NN 条 指令 的 执行 时 间 为 1.17X400psX N= 二 0.468NN 纳 秒 。 

综 上 所 述 , 流 水 线 方式 的 执行 速度 最 快 ,与 单 周 期 相 比 , 约 为 1. 2ns/0. 468ns 一 2. 56 倍 ; 
与 多 周期 相 比 , 约 为 1. 648ns/0. 468ns 王 3. 52 倍 ,都 要 快 一 倍 以 上 。 


背 念 流水线 


细心 的 读者 可 能 发 现 , 例 5. 1 对 单 周期 和 多 周期 相 比 时 ,结论 是 多 周期 比 单 周期 快 
1.23 倍 , 而 从 本 例 来 看 , 单 周 期 比 多 周期 更 快 。 得 到 这 种 矛盾 的 结论 ,是 因为 假定 的 前 提 
不 同 。 本 例 中 , 访 存 操作 消耗 了 特别 长 的 时 间 , 它 是 多 周期 方式 和 流水 线 方式 共同 的 瓶 
颈 。 因 为 各 功能 段 耗 时 不 均匀 ,所 以 会 导致 单 周 期 方式 比 多 周期 快 的 现象 。 若 将 访 存 分 
解 为 两 个 周期 ,可 以 使 时 钟 周期 降 为 200ps, 这 对 多 周期 和 流水 线 两 种 方式 都 会 带 来 性 能 
上 的 改进 。 

6.4 节 介 绍 的 超 流水 线 技术 就 采用 了 将 流水 段 更 细 、 更 均匀 地 划分 的 思想 。 


6.4 高 级 ; 区 水 线 技术 


高 级 流水 线 技术 充分 利用 指令 级 并 行 (ILP) 来 提高 流水 线 的 性 能 。 有 两 种 增加 指令 级 
并 行 的 策略 。 

一 种 是 超 流 水 线 (super-pipelining) 技 术 , 通 过 增加 流水 线 级 数 来 使 更 多 的 指令 同时 在 
流水 线 中 重 释 执行 。 超 流水 线 并 没有 改变 CPI 的 值 ,CPI 还 是 1, 但 是 ,因为 理想 情况 下 流 
水 线 的 加 速 比 与 流水 段 的 数目 成 正比 ,因此 ,流水 段 越 多 ,时 钟 周期 越 短 ,指令 吞吐 率 越 高 。 
因此 , 超 流水 线 的 性 能 比 普 通 流水 线 好 。 但 是 ,流水 线 级 数 越 多 ,用 于 流水 段 寄存 器 的 开销 
就 越 大 ,因而 流水 线 级 数 是 有 限制 的 ,不 可 能 无 限 增加 。 

另 一 种 是 多 发 射流 水 线 (multiple issue pipelining) 技 术 ,通过 同时 启动 多 条 指令 (如 整 
数 运算 、 浮 点 运算 ,存储 器 访问 等 ) 独 立 运行 来 提高 指令 并 行 性 。 采 用 多 发 射流 水 线 技术 的 
处 理 器 称 为 超标 量 (superscalar) 处 理 器 。 要 实现 多 发 射流 水 线 ,其 前 提 是 数据 通路 中 有 多 
个 执行 部 件 ,如 定点 、 浮 点 、 乘 / 除 、 取 数 / 存 数 部 件 等 。 多 发 射流 水 线 的 CPI 能 达到 小 于 1， 
因此 ,有 时 用 CPI 的 倒数 IPC 来 衡量 其 性 能 。IPC(Instructions Per Cycle) 是 指 每 个 时 钟 周 
期 内 完成 的 指令 条 数 。 例 如 ,四 路 多 发 射流 水 线 的 理想 IPC 为 4。 

实现 多 发 射流 水 线 必须 完成 以 下 两 个 任务 : 指令 打包 和 冒险 处 理 。 指 令 打包 任务 就 是 
将 能 够 并 行 处 理 的 多 条 指令 同时 发 送 到 发 射 槽 中 ,因此 处 理 器 必须 知道 每 个 周期 能 发 射 几 
条 指令 ,哪些 指令 可 以 同时 发 射 。 这 通过 推测 (speculation) 技 术 来 完成 ,可 以 由 编译 器 或 处 
理 器 通过 猜测 指令 执行 结果 来 调整 指令 执行 顺序 ,使 指令 的 执行 能 达到 最 大 可 能 的 并 行 。 
指令 打包 的 决策 依赖 于 “推测 ?的 结果 ,主要 根据 指令 间 的 相关 性 来 进行 推测 ,与 前 面 指令 不 
相关 的 指令 可 以 提前 执行 ,例如 ,如 果 可 以 推测 出 一 条 load 指令 和 它 之 前 的 store 指令 引用 
的 不 是 同一 个 存储 地 址 , 则 可 以 将 load 指令 提前 到 store 指令 之 前 执行 ;也 可 对 分 支 指 令 进 
行 推测 以 提前 执行 分 支 目 标 处 的 指令 。 不 过 ,推测 仅 是 “猜测 ”, 有 可 能 推测 错误 , 故 需 有 推 
测 错误 检测 和 回 退 机 制 ,在 检测 到 推测 错误 时 ,能 回 退 掉 被 错误 执行 的 指令 。 因 此 ,错误 推 
测 会 导致 额外 开销 。 需 要 结合 软件 推测 和 硬件 推测 来 进行 ,软件 推测 指 编译 器 通过 推测 来 
静态 重 排 指令 ,此 种 推测 一 定 要 正确 ,而 硬件 推测 指 处 理 器 在 程序 执行 过 程 中 通过 推测 来 动 
态 调度 指令 。 

根据 推测 打包 任务 主要 由 编译 器 静态 完成 还 是 由 处 理 器 动态 执行 ,可 将 多 发 射 技术 分 
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“6.4.1 静态 多 发 射 处 理 器 


静态 多 发 射 处 理 器 主要 通过 编译 器 静态 推测 来 辅助 完成 “指令 打包 ”和 “冒险 处 理 ”。 指 
令 打 包 的 结果 可 看 成 将 同时 发 射 的 多 条 指令 合并 到 一 个 长 指令 中 。 通 常 将 一 个 周期 内 发 射 
的 多 个 指令 看 成 一 条 多 个 操作 的 长 指令 , 称 为 一 个 发 射 包 。 所 以 ,静态 多 发 射 指 令 最 初 被 称 
为 超 长 指令 字 (Very Long Instruction Word,VLIW) ,采用 这 种 技术 的 处 理 器 被 称 为 VLIW 
处 理 器 。Intel 的 IA-64 架构 采用 这 种 方法 , Intel 称 其 为 EPIC (Explicitly Parallel 
Instruction Computer, 显 式 并 行 指 令 计算 机 )。 

因为 数据 通路 中 功能 部 件 及 其 个 数 是 确定 的 ,所 以 ,同一 时 钟 周期 内 发 射 的 指令 类 型 和 
指令 个 数 是 受 限 的 。 例 如 ,如 果 ALU 运算 部 件 和 存储 访问 部 件 独立 设置 ,并 只 各 提供 一 
套 , 则 只 能 同时 发 射 一 条 ALU 指令 /分 支 指 令 和 一 条 Load/Store 指令 。 

静态 多 发 射 处 理 器 的 冒险 处 理 主要 是 数据 冒险 和 控制 冒险 。 处 理 冒 险 的 方式 可 有 两 
种 。 一 种 是 完全 由 编译 器 通过 代码 调度 和 插入 nop 指令 来 静态 地 消除 所 有 冒险 ,无 须 硬件 
实现 冒险 检测 和 流水 线 阻塞 ; 另 一 种 是 由 编译 器 通过 静态 分 支 预测 和 代码 调度 来 消除 打包 
指令 的 内 部 依赖 ,而 由 硬件 检测 数据 冒险 并 进行 流水 线 阻塞 。 

为 了 使 读者 对 静态 多 发 射 处 理 器 有 一 定 的 感性 认识 ,以 下 以 一 个 简单 的 2- 发 射 MIPS 
处 理 器 为 例 来 分 析 静 态 多 发 射 处 理 器 的 基本 实现 ,然后 简要 介绍 一 下 Intel 的 IA-64 的 结构 
特点 。 

1. 2- 发 射 MIPS 处 理 器 

要 使 原来 的 MIPS 处 理 器 能 够 同时 处 理 两 条 流水 线 ,数据 通路 必须 进行 一 些 改进 : 

(1) 因为 需要 同时 读 取 并 译 码 两 条 指令 ,因而 ,可 将 两 条 指令 打包 成 64 位 长 指令 ,前面 
为 ALU/beq 指令 ,后 面 为 Load/Store 指令 ,没有 配对 指令 时 ,就 用 nop 指令 代替 ,将 64 位 
长 指令 中 的 两 个 操作 码 同 时 送 到 控制 器 (指令 译 码 器 ) 进 行 译 码 。 

(2) 因为 两 条 指令 可 能 同时 读 两 个 寄存 器 (和 Store 配对 时 ) 或 同时 写 两 个 寄存 器 (和 
Load 配对 时 ), 所 以 需要 增加 一 个 寄存 器 读 口 和 一 个 写 口 。 

(3) 因为 在 上 一 条 ALU/beq 指令 进行 ALU 运算 时 ,本 条 Load/Store 指令 要 计算 地 
址 ,所 以 需要 增加 一 个 加 法 器 或 ALU 运算 部 件 (包括 两 组 输入 总 线 和 一 组 输出 总 线 )。 

(4) 流水 段 寄存 器 要 增 宽 , 因 为 两 条 指令 的 数据 信息 和 控制 信号 在 流水 段 寄存 器 中 被 
分 别传 送 。 

2- 发 射 处 理 器 的 潜在 性 能 将 提高 大 约 两 倍 ,但 由 于 各 种 原因 ,实际 上 达 不 到 。 静 态 多 发 
射 处 理 器 的 缺点 是 ,为 消除 结构 冒险 , 需 增 加 额外 部 件 , 此 外 ,由 于 多 条 流水 线 同 时 发 射 执 
行 ,使 得 一 旦 发 生 数据 冒险 或 控制 冒险 便 会 有 更 多 的 指令 被 阻塞 在 流水 线 中 ,因而 增加 了 洪 
在 的 性 能 损失 。 例 如 ,对 于 Load-use 数据 冒险 ,在 单 发 射流 水 线 下 ,只 有 一 条 指令 被 延迟 执 
行 , 而 在 2- 发 射流 水 线 下 ,因为 一 个 时 钟 周期 有 两 条 指令 在 执行 ,所 以 ,有 两 条 指令 被 延迟 
执行 ;又 如 ,对 于 ALU-Load/Store 数据 冒险 ( 即 一 条 ALU 指令 后 跟 一 条 Load 或 Store 指 
令 ) ,在 单 发 射流 水 线 下 ,可 用 “转发 ”技术 使 ALU 的 结果 直接 转发 到 Load/Store 指令 
的 Ex 阶段 ,但 在 2- 发 射流 水 线 下 ,因为 两 条 指令 同时 进行 ,所 以 ,ALU 的 结果 不 能 直 
接 转 发 ,只 能 延迟 一 个 时 钟 周期 再 执行 Load/Store 指令 。 为 了 更 有 效 地 利用 多 发 射 处 
理 器 的 并 行 性 ,必须 有 更 强大 的 编译 器 ,能够 充分 消除 指令 间 的 依赖 关系 ,使 指令 序列 


背 仿 流水 线 


达到 最 大 的 并 行 性 。 
以 下 用 一 个 例子 来 说 明 编译 器 如 何 进行 静态 指令 调度 。 假 设 有 一 个 程序 段 用 来 实现 对 一 章 


个 数组 中 的 所 有 元 素 依次 进行 加 1 操作 ,该 程序 段 在 MIPS 机 器 上 对 应 的 机 器 代码 段 如 下 : 





loop: lw $t0, 0($s1) # 从 存储 单元 取 数 , 送 $t0 
addiu $t0, $t0,1 #$t0 增 量 
sw $t0, 0($s1) #$t0 送 回 存 储 单元 
adqi $51, $si,-4 # 存 储 单元 地 址 减 4 


bne $sl, $zero, loop # 若 存储 单元 地 址 不 为 0, 则 继续 循环 


由 于 受 2- 发 射 MIPS 流水 线 处 理 器 结构 的 限制 ,指令 被 分 成 两 类 。 一 类 是 ALU/ 分 支 
指令 , 另 一 类 是 lw/sw 指令 。 为 了 能 在 2- 发 射 MIPS 流水 线 中 有 效 执行 上 述 程序 , 需 重新 
排列 指令 序列 。 前 3 条 指令 之 间 和 后 两 条 指令 之 间 各 有 相关 性 ,因此 ,可 把 第 四 条 指令 调 到 
第 一 条 后 面 ,但 因为 $ sl 先 被 减 4, 故 sw 指令 的 偏 移 应 改 为 4。 调 度 后 得 到 的 2- 发 射流 水 
线 如 图 6.25 所 示 。 




















ALU/ 分 支 指令 Load/Store 指令 时 钟 周期 
loop: nop lw $t0, 0($sl) 1 
addi $sl, $sl, —4 nop 2 
addiu $1t0, $t0,1 nop 3 
bne $ sl, $ zero, loop sw $t0, 4($sl) 4 

















6.25 2- 发射 MIPS 流水 线 的 指令 代码 调度 例子 


上 述 调度 结果 是 循环 体内 5 条 指令 在 4 个 时 钟 周期 内 完成 ,因此 ,实际 CPI 为 0. 8, 即 
IPC=1.25。 这 个 结果 与 理想 情况 相 比 相差 很 大 。 对 于 在 循环 结构 中 的 代码 ,更 好 的 调度 
技术 是 循环 展开 。 

循环 展开 的 基本 思想 是 ,将 循环 体 展 开 生 成 多 个 副本 ,在 展开 的 指令 中 统筹 调度 。 例 如 ， 
对 于 上 例 , 若 循环 执行 次 数 是 4 的 倍数 , 则 可 循环 展开 4 次 ,其 最 佳 调度 序列 如 图 6. 26 所 示 。 
































ALU/ 分 支 指令 Load/Store 指令 时 钟 周期 

loop: addi $sl, $s1, 一 16 lw $t0, 0($sl1) 1 
nop lw $t, 12($sl) 2 

addiu  $t0，$t0, 1 lw $t2,8($sl) 

addiu $t，$t,，1 lw $t3, 4($sl) 4 

addiu $t2, $t1, 1 sw $t0, 16($sl) 5 

addiu $t3, $t3,1 sw $tl,12($sl) 6 

nop sw $t2, 8($sl) 7 

bne $sl, $zero, loop sw $t3,4($s1) 8 

















图 6.26 2- 发 射 MIPS 流水 线 的 指令 代码 循环 展开 调度 例子 


计算 机 组 成 与 系统 结 欧 (第 2 版 ) 




















循环 展开 4 次 后 ,每 次 循环 体内 对 4 个 数组 元 素 进行 低地 是 
操作 ,数组 首 地 址 在 $ sl 中 。 因 为 addi 指令 先 将 $sl 减 | _ | 数组 元 素 4 
16。 因 此 ,如 图 6. 27 所 示 , 循 环 内 被 操作 的 4 个 数组 元 素 ,| 数组 元 素 3| | 训 休 
的 地 址 分 别 是 ( $s1) 十 16、( $s1) 十 12、( $sl) 十 8、($ sl) 1 _| 数 组 元 素 2| | 方向 
十 4, 因 为 第 1 个 时 钟 周期 的 lw 指令 进行 地 址 计算 时 ,addi 。 「 SSTHL- | 数组 元 素 ! 高 地 址 




















指令 的 执行 结果 还 没 写 到 $sl 中 ,所 以 ,此 时 $sl 还 是 原 
来 的 值 ,因此 ,该 lw 指令 的 地 址 偏 移 是 0 而 不 是 16。 

循环 展开 4 次 后 ,循环 内 与 数组 元 素 的 访问 和 操作 相关 的 指令 (lw， addiu, sw) 各 有 4 
条 ,再 加 上 1 条 addi 和 1 条 bne, 共 14 条 指令 ,用 了 8 个 时 钟 ,CPI 达到 8/14 二 0. 57, 比 未 
进行 循环 展开 好 。 

在 循环 展开 过 程 中 ,用 到 了 “ 重 命名 寄存 器 ”技术 ,多 用 了 3 个 临时 寄存 器 $tl、$t2、 
$ t3 来 消除 名 字 依 赖 关 系 。 因 为 名 字 依 赖 是 一 种 非 真 实 依赖 ,只 是 寄存 器 名 相同 而 已 , 实 
际 上 并 不 是 同一 个 寄存 器 ,因此 ,可 以 用 另 一 个 寄存 器 名 替换 。 

在 循环 展开 时 ,需要 注意 尽量 不 能 引起 新 的 数据 冒险 。 例 如 ,第 一 条 addiu 指令 不 能 放 
在 第 二 时 钟 周期 ,否则 ,会 引起 Load-use 数据 冒险 。 

从 上 述 例子 可 以 看 出 ,循环 展开 确实 能 提高 程序 执行 效率 ,但 是 ,这 也 是 有 代价 的 。 本 
例 的 代价 是 多 用 了 3 个 临时 寄存 器 ,并 增加 了 程序 的 代码 长 度 , 因 为 循环 体 变 长 使 存储 空间 
变 赤 本， 

当然 ,如 果 上 述 例子 中 循环 次 数 不 是 4 的 倍数 ,那么 就 会 有 问题 。 这 种 情况 下 ,除了 调 
整 循环 次 数 外 ,还 要 对 多 出 来 的 不 足 4 次 的 循环 另外 进行 处 理 。 

2. Intel 的 IA-64 的 结构 特点 

20 多 年 来 ,Intel IA-32 体系 结构 一 直 是 市 场 上 最 流行 的 通用 处 理 器 架构 ,1985 年 推出 
的 Intel 80386 处 理 器 是 IA-32 家 族 中 第 一 款 产 品 , 它 是 典型 的 CISC 风格 指令 集体 系 结构 ， 
而 随后 的 IA-32 处 理 器 都 与 它 保持 向 后 兼容 ,因此 ,从 整体 上 来 看 ,IA-32 仍 是 基于 CISC 架 
构 的 体系 结构 。 但 从 1993 年 推出 的 奔腾 (Pentium) 处 理 器 开始 ,RISC 设计 思想 逐渐 被 引 
入 ,Intel 公司 最 终 将 Pentium 4 处 理 器 设计 成 了 被 称 为 “CISC 壳 、RISC 核 ? 架 构 的 处 理 器 ， 
CISC 指令 在 执行 时 被 转换 成 一 条 或 多 条 类 似 RISC 指令 的 微 操作 。 有 关 Pentium 4 的 具体 
内 容 见 6.4.3 节 。 

随 着 计算 机 技术 及 应 用 领域 的 不 断 发 展 , 32 位 处 理 器 逐步 开始 向 64 位 处 理 器 过 渡 。 
Intel 公司 最 早 推出 的 64 位 架构 是 基于 超 长 指令 字 (VLIW) 技 术 的 IA-64 体系 结构 ,Intel 
公司 称 其 为 显 式 并 行 指令 计算 机 (Explicitly Parallel Instruction Computer,EPIC) 。 

Intel 的 安 腾 (Itanium) 和 安 腾 2(Itanium 2) 处 理 器 分 别 在 2000 年 和 2002 年 问世 ,它们 
是 IA-64 体系 结构 最 早 的 具体 实现 。 安 腾 体 系 结构 完全 脱离 了 IA-32 CISC 架构 的 束缚 , 采 
用 全 新 的 EPIC 技术 。 

IA-64 体系 结构 采用 类 似 64 位 MIPS 架构 的 RR 型 RISC 风格 指令 集 , 但 与 MIPS-64 
体系 结构 有 一 些 差别 , 它 主要 有 以 下 几 个 方面 的 特点 。 

(1) 具有 比 MIPS-64 更 多 的 寄存 器 ,包含 128 个 整数 .128 个 浮 点 数 、8 个 专用 分 支 、 
64 个 1 位 谓词 寄存 器 。 支 持 寄存 器 窗口 重 又 技术 ,提供 一 组 窗口 寄存 器 ,在 执行 过 程 调用 
和 返回 时 ,利用 窗口 寄存 器 来 完成 参数 传递 。 


图 6.27 循环 展开 后 的 数组 元 素 


指令 流水 线 


(2) 要 求 编译 器 显 式 地 给 出 指令 级 的 并 行 性 ,并 行 执行 信息 被 明显 标记 在 代码 中 。 这 
也 是 Intel 公司 之 所 以 称 其 为 显 式 并 行 的 原因 。IA-64 的 编译 器 通过 指令 组 (instruction 
group) 来 显 式 地 标 出 指令 的 并 行 性 。 指 令 组 是 指 相互 间 没 有 寄存 器 级 数据 依赖 的 指令 序 
列 ,指令 组 长 度 任意 ,用 “停止 标记 ?在 指令 组 之 间 明 显 标识 ,指令 组 内 部 的 所 有 指令 可 并 行 
执行 ,只 要 有 足够 硬件 且 无 内 存 操作 依赖 。 

(3) 程序 执行 时 将 同时 发 射 的 指令 重新 编码 并 组 织 在 一 个 指令 包 (bundle) 中 ,每 个 指 
令 包 的 长 度 为 128 位 ,由 5 位 长 的 模板 字段 和 3 个 41 位 长 的 指令 组 成 。 

(4) 引入 特殊 的 谓词 化 技术 ,以 支持 推测 执行 和 消除 分 支 , 提 高 指令 级 并 行 度 。“ 谓 词 ” 
是 指 分 支 指令 中 的 条 件 , 每 个 谓词 与 一 个 谓词 寄存 器 相关 联 。 指 令 最 后 6 位 是 一 个 标识 谓 
词 寄存 器 的 编号 ,因此 ,每 条 指令 用 该 编号 与 一 个 谓词 寄存 器 关联 ,以 反映 条 件 是 否 满足 。 
这 类 似 于 ARM 架构 中 的 条 件 字 段 。 

IA-64 体系 结构 试图 完全 脱离 IA-32 CISC 架构 的 束缚 ,最 大 限度 地 提高 软件 和 硬件 之 
间 的 协同 性 ,力求 将 处 理 器 的 处 理 能 力 和 编译 软件 的 功能 结合 起 来 ,在 指令 中 将 并 行 执行 信 
息 以 显 式 的 方式 告诉 硬件 。 但 是 ,这 种 思路 被 证 明 是 不 易 实 现 的 ,而 且 , 因 为 采用 了 全 新 的 
指令 集 , 虽 然 可 以 在 兼容 模式 中 执行 IA-32 代码 ,但 是 性 能 不 太 好 ,因而 安 腾 并 没有 在 市 场 
上 获得 成 功 。 

AMD 公司 利用 Intel 公司 在 IA-64 架构 上 的 失败 ,抢先 在 2003 年 推出 了 兼容 IA-32 的 
64 位 版 本 指令 集 x86-64, 它 在 保留 IA-32 指令 集 的 基础 上 ,增加 了 新 的 数据 格式 及 其 操作 
指令 ,寄存 器 长 度 扩展 为 64 位 ,并 将 通用 寄存 器 个 数 从 8 个 扩展 到 16 个 。 通 过 x86-64， 
AMD 公司 获得 了 以 前 属于 Intel 公司 的 一 些 高 端 市 场 。AMD 公司 后 来 将 x86-64 更 名 
为 AMD64。 

Intel 公司 发 现 用 IA-64 直接 替换 IA-32 行 不 通 ,于 是 ,在 2004 年 推出 了 IA32-EM64T 
(Extended Memory 64 Technology，64 位 内 存 扩展 技术 ) , 它 支 持 x86-64 指令 集 。Intel 公 
司 为 了 表示 EM64T 的 64 位 模式 特点 ,又 使 其 与 IA-64 有 所 区 别 ,2006 年 开始 把 EM64T 
改名 为 Intel 64。 因 此 , Intel 64 是 与 IA-64 完全 不 同 的 体系 结构 , 它 与 IA-32 和 AMD64 
兼容 。 

以 上 对 静态 多 发 射流 水 线 技术 作 了 简要 介绍 ,可 以 看 出 ,计算 机 的 体系 结构 和 编译 器 的 
关系 非常 紧密 ,编译 器 的 好 坏 直 接 影响 程序 的 性 能 。 实 现 编译 器 的 程序 员 必须 对 机 器 结构 
非常 了 解 ,才能 开发 出 质量 优良 的 编译 器 。 


“6.4.2 动态 多 发 射 处 理 器 


动态 多 发 射流 水 线 处 理 器 在 指令 执行 时 由 处 理 器 硬件 动态 进行 流水 线 调 度 来 完成 指令 
打包 和 冒险 处 理 , 能 在 一 个 时 钟 周期 内 执行 一 条 以 上 指令 。 

在 动态 多 发 射 处 理 器 上 要 达到 较 好 的 性 能 ,也 需要 由 编译 器 进行 静态 调度 ,以 尽量 消除 
依赖 关系 ,达到 较 高 的 发 射 速率 。 但 这 种 静态 调度 与 静态 多 发 射 处 理 器 和 VLIW 处 理 器 的 
静态 调度 有 一 些 不 同 。 对 于 VLIW 处 理 器 的 静态 调度 来 说 ,编译 结果 与 机 器 结构 密切 相 
关 ; 而 对 于 动态 调度 来 说 ,编译 器 仅 进 行 指令 顺序 调整 ,不 需要 根据 机 器 结构 进行 指令 打包 ， 
而 是 完全 由 硬件 来 决定 某 个 时 钟 周期 发 射 哪 几 条 指令 。 

目前 超标 量 处 理 器 大 多 采用 动态 多 发 射流 水 线 , 在 简单 的 超标 量 处 理 器 中 ,指令 按 顺序 
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发 射 , 每 个 周期 由 处 理 器 决定 是 发 射 一 条 或 多 条 指令 ,显然 ,在 这 种 处 理 器 上 要 达到 较 好 的 
性 能 ,很 大 程度 上 依赖 于 编译 器 。 为 了 更 好 地 发 挥 超标 量 处 理 器 的 性 能 ,多 数 超标 量 处 理 器 
都 结合 动态 流水 线 调度 (dynamic pipeline scheduling) 技 术 ,处理 器 通过 指令 相关 性 检测 和 
动态 分 支 预测 等 手段 ,投机 性 地 不 按 指令 顺序 执行 , 当 发 生 流水 线 阻塞 时 ,根据 指令 的 依赖 
关系 ,动态 地 到 后 面 找 一 些 没有 依赖 关系 的 指令 提前 执行 。 这 种 指令 执行 方式 称 为 乱 序 执 
行 (out-of-order scheduling) 。 

例如 ,对 于 以 下 一 段 MIPS 指令 序列 : 

lw $t0, 0($s1) 

add S$t2, $t0, $t1 

sub $s2, $s2, $t3 

addiu $t4, $s2, 20 

第 一 条 和 第 二 条 指令 存在 Load-use 数据 冒险 ,而 且 ,lw 指令 本 身 耗 时 较 长 ,容易 发 生 
访问 不 命中 引起 的 流水 线 阻 塞 ,因此 ,可 以 采用 动态 流水 线 调度 方式 ,将 sub 指令 调 到 第 二 
条 指令 前 面 提前 执行 ,不 需 等 lw 和 add 指令 执行 完 。addiu 指令 也 可 以 提前 ,但 因为 和 sub 
指令 有 依赖 关系 ,所 以 要 保证 它 在 sub 指令 后 执行 。 

为 了 实现 动态 多 发 射 和 动态 流水 线 调度 ,处 理 器 中 需要 提供 一 些 必 要 的 机 制 和 相应 的 
处 理 部 件 ,如 指令 预 取 部 件 、 指 令 调 度 与 分 派 部 件 、 多 个 功能 部 件 、 重 排序 缓存 等 。 图 6. 28 
是 动态 多 发 射流 水 线 处 理 器 的 通用 模型 示意 图 。 
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6.28 ”动态 多 发 射流 水 线 处 理 器 的 通用 模型 


如 图 6. 28 所 示 ,动态 多 发 射流 水 线 处 理 器 主要 由 以 下 几 个 部 分 组 成 : 

(1) 指令 预 取 和 译 码 单元 。 为 了 保证 流水 线 中 有 足够 的 指令 执行 ,必须 要 有 指令 预 取 
功能 。 预 取 的 指令 经 译 码 后 , 放 到 一 个 指令 队列 中 。 

(2) 指令 分 派 (dispatch) 器 。 通 过 分 析 指令 功能 和 指令 间 的 依赖 关系 ,并 根据 功能 部 件 
的 空闲 情况 ,确定 何 时 发 射 哪 条 指令 到 哪个 功能 单元 中 。 

(3) 功能 单元 。 超 标量 处 理 器 中 一 定 有 多 个 功能 单元 ,它们 各 自 完成 独立 的 操作 ,如 整 
数 加 、 整 数 乘 、 整 数 除 、 浮 点 加 、 浮 点 乘 、 浮 点 除 、 存 数 / 取 数 等 。 每 个 功能 单元 都 具有 一 定 的 
操作 性 能 ,通常 用 两 个 周期 数 来 刻画 之 。 一 个 是 执行 周期 数 (latency) ,表示 完成 特定 操作 


背 仿 流水 线 


所 花 的 时 钟 周 期 数 ; 另 一 个 是 发 射 时 间 (issue time) ,表示 连续 、 独 立 的 两 次 操作 之 间 的 最 短 
周期 数 。 表 6. 1 是 Pentium 亚 的 部 分 功能 部 件 性 能 列表 ,从 表 6. 1 可 看 出 ,整数 加 、 整 数 乘 、 
浮 点 加 、 取 数 、 存 数 这 5 种 部 件 是 流水 化 的 , 浮 点 乘 部 件 是 部 分 流水 化 的 ,而 整数 除 和 浮 点 除 
是 完全 没有 流水 化 的 。 每 个 功能 部 件 有 各 自 的 缓冲 器 , 称 为 保留 站 ,用 于 保存 操作 数 和 操作 
命令 。 

表 6.1 Pentium 下 的 功能 部 件 性 能 














操作 类 型 操作 类 型 执行 周期 数 | 发 射 时 间 
整数 加 法 浮 点 数 乘法 5 人 
整数 乘法 浮 点 数 除法 38 38 
整数 除法 取 数 (cache 命中 ) 3 1 
浮 点 数 加 法 存 数 (cache 命中 ) 3 1 

















(4) 重 排序 缓冲 (ReOrder Buffer)。 可 简化 表示 为 ROB, 用 于 保存 已 完成 的 指令 结果 ， 
等 待 在 可 能 时 写 回 寄 存 器 堆 。 功 能 部 件 一 旦 完成 操作 , 则 将 结果 同时 送 其 他 等 待 该 结果 的 
保留 站 和 ROB 中 。 指 令 结果 也 可 在 ROB 中 被 “转发 "。 当 指令 发 射 时 ,其 源 操 作 数 可 能 是 
其 他 指令 的 运算 结果 ,因而 可 能 正在 寄存 器 堆 或 ROB 中 ,此 时 ,可 立即 将 操作 数 复制 到 相 
应 的 保留 站 中 ; 若 操作 数 不 在 寄存 器 堆 或 ROB 中 , 则 一 定 会 在 某 个 时 刻 由 一 个 功能 单元 计 
算出 来 ,硬件 通过 定位 该 功能 单元 ,将 结果 从 旁 路 转发 到 相应 的 保留 站 。 

动态 多 发 射流 水 线 的 执行 模式 有 3 种 : 按 序 发 射 \ 按 序 完 成 ; 按 序 发 射 . 无 序 完成 ;无 序 
发 射 无 序 完 成 。 下 面 用 一 个 例子 来 说 明 这 3 种 执行 模式 的 实现 思想 。 

例 6.5 ”假定 某 个 2- 发 射 超标 量 处 理 器 的 指令 执行 过 程 分 为 取 指 (IF) 、 译 码 (ID) ,执行 
(Ex) . 写 回 (WB)4 个 阶段 。 其 中 ,IF ID 和 WB 阶段 在 一 个 
时 钟 周 期 内 完成 ,在 这 3 个 阶段 可 同时 有 两 条 指令 执行 。 S ns ee 
Ex 阶段 有 3 个 执行 部 件 : @ 访 存 部 件 用 于 完成 数据 cache 访 |ia sqq $3 $3 $4 
问 ,需要 1 个 时 钟 周期 @ 整 数 ALU 用 来 完成 ALU 操作， | i4 mul $4, $5, $4 
需 两 个 时 钟 周期 ; @ 整 数 乘法 器 用 来 完成 乘法 运算 , 需 3 个 是 ee 全 可 
时 钟 周期 。 整 数 ALU 和 乘法 器 均 采用 流水 化 方式 执行 。 假 BA 
定 有 一 个 如 图 6. 29 所 示 的 指令 序列 在 该 处 理 器 上 执行 , 试 说 图 6.29 一 个 MIPS 指令 序列 
明 按 3 种 模式 ( 按 序 发 射 、 按 序 完 成 ; 按 序 发 射 .无 序 完成 ;无 序 发 射 .无 序 完成 ) 执 行 指令 的 
过 程 ,并 说 明 各 需要 多 少 个 时 钟 周期 。 

解 : 显然 , 取 指 阶段 总 是 按 序 进行 ,并 且 可 以 保证 一 次 取 两 条 指令 。 因 此 ,下 面 给 出 的 
示意 图 中 只 考虑 译 码 ,执行 和 写 回 3 个 阶段 的 情况 。 根 据 题 意 可 知 , 某 个 时 钟 周 期 内 ,处 理 
器 中 最 多 有 两 条 指令 在 取 指 ,两 条 指令 在 译 码 , 一 条 指令 在 访 存 ,两 条 指令 进行 ALU 操作 ， 
3 条 指令 执行 乘法 运算 ,两 条 指令 进行 写 回 操作 , 即 , 最 多 可 有 12 条 指令 正在 被 处 理 。 但 是 这 
只 是 理想 的 情况 ,实际 上 ,指令 序列 中 指令 的 排序 不 一 定 正 好 和 功能 部 件 一 一 对 应 ,而 且 指令 
之 间 还 存在 相互 关联 ,因此 ,很 多 情况 下 ,并 不 是 每 个 功能 部 件 的 每 个 流水 段 都 能 被 充满 。 

对 图 6. 29 所 示 的 指令 序列 进行 分 析 后 可 知 : 指令 i 和 i2 之 间 .i3 和 i 之 间 、i5 和 i6 
之 间 具 有 数据 相关 性 ,其 中 i 和 2 之 间 是 $1 被 写 后 再 读 , 称 为 RAW(Read After Write); 
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i5 和 i6 之 间 的 $6 既是 RAW, 又 是 写 后 写 WAWCWrite After Write) 。 所 以 不 管 采用 哪 种 
模式 ,在 这 两 处 的 两 条 指令 都 不 能 同时 发 射 ,并 要 按 序 完成 。i3 和 i4 之 间 的 $4 是 读 后 写 
WAR(Write After Read) ,因此 ,必须 保证 在 i3 读 $4 之 前 ,i4 不 能 写 $4。 

图 6.30(a) 一 (c) 分 别 给 出 了 “* 按 序 发 射 、. 按 序 完成 "“ 按 序 发 射 . 无 序 完 成 "“ 无 序 发 
射 .无 序 完 成 ”3 种 指令 执行 模式 下 指令 序列 的 执行 过 程 ( 注 : 因为 一 共 只 有 两 条 乘法 指令 ， 
故 图 中 乘法 部 件 流水 线 未 充满 ) 。 








































































































































































































































































































译 码 阶段 执行 阶段 写 回 阶段 时 钟 
il | 2 2 
i2 il 3 
3|1i4 i2 il 4 时 钟 1 2 3 4 5 6 78 9 10 
i5 | i6 i2 i3|i4 5 il [IF [IDTEx [WB 
i6 5 | i3|i4 2 |6 2 lIFIID| |Ex|Ex|wB 
[i5] i4 i6 3 7 i3 |IF| |ID|Ex|Ex|IWB 
[i5] i6 这 | 8 i4 [IF| |ID|Ex|Ex |Ex |wal 
i6 5 9 i5 IF | ID|Ex WB 
1d/st ALU 乘法 器 i6 | 10 i6 IFIID| |Ex|Ex|Ex|WB 
(a) 按 序 发 射 、 按 序 完成 
译 码 阶段 执行 阶段 写 回 阶段 时 钟 
让 | i2 2 
这 il 
B14 而 i 4 时 钟 ! 2 3 4 5 6 7 8 9% 10 
i5 | i6 i2 i3|i4 5 il [IF [IDlExIwB 
6 i5 | i3|i4 i |6 plF|D| |Ex|ExlwB 
i4 i6 3|i53|7 i3 | 下 | |ID|Ex|Ex IWB 
[35] i6 计 |8 i4 [IF| |ID|Ex|Ex|Ex|WB 
[i5] i6 9 i | IF ID|Ex|WB| 
1d/st ALU 乘法 器 i | 10 i6 LIF| Il |Ex|Ex|[Ex[wB 
(b) 按 序 发 射 、 无 序 完成 
译 码 阶段 执行 阶段 写 回 阶 段 时 钟 
i | i2 2 
3 | 计 il 3 
i5 | i6 i2 i4 il 4 时 钟 ! 2 3 4 5 6 7 8 9 
i | i8 i5_|i2 i3|i4 5 il |IF | ID| ExIWB 
3| 这 i6 iisil6 i2 |IF |ID Ex | Ex|wB 
i6| i | i |]7 i3 |IFIID| |Ex|Ex|wB 
i6| 8 i4 |IF|ID |Ex| Ex|Ex IWB 
i6 |9 is | 下 |ID|Ex|wB| 
1d/st ALU 乘法 器 10 i6 LE|ID| |Ex |Ex |Ex|WB 






































(0) 无 序 发 射 、 无 序 完成 
图 6.30 3 种 执行 模式 下 的 指令 序列 执行 过 程 


图 6.30(a) 是 “ 按 序 发 射 \ 按 序 完 成 ”执行 模式 ,从 图 中 可 看 出 ,所 有 阶段 都 是 按 顺 序 进 
行 的 。 例 如 ,因为 在 第 3 时 钟 内 这 不 能 和 i 同时 发 射 ,所 以 ,2 在 译 码 阶段 被 阻塞 一 个 周 
期 。 为 了 按 序 完成 ,虽然 5 在 时 钟 6 已 经 完成 ,但 一 直 要 推迟 到 i4 写 回 后 的 第 9 时 钟 才 写 
回 。 完 成 上 述 6 条 指令 共 需 10 个 时 钟 周期 。 

图 6.30(b) 是 “ 按 序 发 射 . 无 序 完 成 ”执行 模式 ,从 图 中 可 看 出 ,在 执行 阶段 ,指令 的 发 射 


指 念 流水线 


是 按 顺序 进行 的 ,而 在 写 回 阶段 则 是 无 序 的 。 例 如 ,i5 在 时 钟 6 已 经 完成 , 它 和 i3、i4 没有 相 
关 性 ,所 以 可 先 于 过 写 回 。 这 种 方式 也 需 10 个 时 钟 周期 完成 指令 ,但 访 存 部 件 在 第 7 和 第 
8 时 钟 已 空 出 来 ,可 被 其 他 指令 使 用 。 

图 6.30(c) 是 “无 序 发 射 .无 序 完 成 ?执行 模式 ,从 图 中 可 看 出 ,在 执行 阶段 ,指令 的 发 射 
是 无 序 进行 的 。 在 无 序 发 射 的 超标 量 处 理 器 中 , 译 码 后 的 指令 被 存放 在 一 个 “指令 窗口 ?组 
冲 中 ,等待 发 射 。 当 所 需 功 能 部 件 可 用 ,并 且 不 会 因为 冲突 或 相关 性 阻碍 指令 的 执行 时 ,就 
从 指令 窗口 发 射 ,与 取 指 和 译 码 的 顺序 无 关 。 例 如 ,在 时 钟 周期 4 由 于 乘法 器 空闲 ,所 以 
这 在 i3 之 前 先 被 发 射 。 在 写 回 阶段 指令 的 完成 也 是 无 序 的 。 实 际 上 ,只 要 保证 让 和 i2 之 
间 .i5 和 i6 之 间 的 发 射 和 完成 是 按 序 的 即 可 。 这 种 方式 下 ,因为 可 以 将 无 关 指令 提前 发 射 
到 空闲 部 件 执行 ,所 以 往往 能 加 快 程序 的 执行 。 此 例 中 ,最 终 只 需 9 个 时 钟 周期 , 比 上 述 两 
种 模式 快 一 个 时 钟 周期 。 

上 述 例子 说 明了 处 理 器 如 何 动态 调度 指令 的 过 程 。 前 面 提 到 ,如 果 编 译 器 先进 行 静态 
调度 ,尽量 消除 依赖 关系 ,可 使 流水 线 达 到 较 高 的 动态 发 射 速率 。 例 如 ,对 于 上 述 例子 给 出 
的 指令 序列 ,如 果 编 译 器 先 静态 调度 指令 序列 ,使 i5 和 i6 调 到 最 前 面 ,并 使 让 和 i2 之 间 、 
i3 和 i4 之 间隔 开 距 离 ,那么 ,在 “无 序 发 射 .无 序 完 成 ”执行 模式 下 ,可 以 使 执行 时 间 缩 短 为 
8 个 时 钟 周 期 ,如 图 6. 31 所 示 。 


时 钟 _ 1 2 3 4 5 6 7 8 



































i5: 1w $6, B F | ID | Ex | wB 
i6: mul $6, $6, $7 | IF | ID Ex | Ex | Ex | WB 
il: lw $1,A IF | ID | Ex | WB| 
i3:add $3,83,84 | IF | ID | Ex | Ex | WB 
i2: add $2, $2, $1 IF | ID | Ex | Ex | wB 
i4: mul $4, $5, $4 IF | ID | Ex | Ex | Ex | wB 














图 6.31 静态 调度 后 的 无 序 发 射 无 序 完成 


动态 调度 可 在 流水 线 发 生 阻塞 时 动态 地 提前 执行 无 关 指令 。 前 面 说 过 ,超标 量 处 理 器 
除了 需要 编译 器 进行 静态 指令 调度 外 ,还 要 依靠 处 理 器 进行 动态 调度 ,这 是 因为 并 不 是 所 有 
阻塞 都 能 事先 由 编译 器 确定 。 例 如 ,cache 缺失 是 编译 器 无 法 事先 预见 的 阻塞 ,只 有 在 动态 
执行 时 才能 发 现 是 否 发 生 了 cache 缺失 ;此 外 ,动态 分 支 预测 也 需要 根据 执行 的 真实 情况 进 
行 预测 。 

采用 动态 调度 可 使 硬件 将 处 理 器 细节 屏蔽 起 来 ,不 同 处 理 器 的 发 射 宽 度 .流水 线 延 时 等 
可 能 不 同 ,流水 线 的 结构 也 会 影响 循环 展开 的 深度 。 通 过 动态 调度 使 得 处 理 器 细节 屏蔽 起 
来 ,软件 发 行商 无 须 针 对 同一 指令 集 的 不 同 处理 器 发 行 相应 的 编译 器 ,并 且 , 以 前 的 代码 也 
可 在 新 的 处 理 器 上 运行 ,无 须 重 新 编译 。 


“6.4.3 Pentium 4 处 理 器 的 流水 线 结 构 


Pentium 4 是 一 种 “CISC 壳 、RISC 核 ” 的 体系 结构 。 它 利用 “踪迹 高 速 缓存 ”(Trace 
Cache,TC) 来 实现 指令 cache。 在 TC 中 存放 指令 解码 后 的 微 操作 (jop) ,每 个 pop 相当 于 
一 条 RISC 指令 。Pentium 4 处 理 器 对 yop 的 执行 采用 了 20 级 超 流 水 线 技术 ,使 流水 线 执 
行 效 率 得 到 很 大 提高 ,但 更 多 的 流水 线 级 数 使 得 分 支 转移 预测 错误 时 带 来 更 大 的 性 能 损失 ， 
因而 ,Pentium 4 采用 了 静态 和 动态 两 级 分 支 预 测 , 大 大 提高 了 预测 正确 率 。 6.32 是 





计算 机 组 成 与 系统 结 欧 (第 2 版 ) 





Pentium 4 处 理 器 的 逻辑 结构 示意 图 。 






















































































































































































64 | 2 动态 分 支 
会 一 一 一 一 一 ~ rh 预测 器 BIB1 
端 
总 公 : 
线 
总 线 Trace Cache Trace Cache 
接口 部 件 微 代码 ROM | “| (12kyop) | “| 分 支 预测 器 
i 
名 微 操作 (wop) 缓 冲 队 列 
1 
L2 cache | _| 资源 分 配 、 寄存 器 换 名 、 微 操作 排队 /调度 /分派 部 件 
8GBps) 看 看 看 蛋 丰 有 尘 丰 |) 1 TY TY 
一 ”| 整数 寄存 器 文件 浮 点 寄存 器 文件 
i [EE EE EE EE EE EE Ti i 
慢 ALU| |2x ALU | |2x ALU| |2x AGU| |2x AGU 浮 点 存 | | 浮 点 加 
复杂 | | 击 音 || 侧 音 || 存 数 | | 取 煞 | | 汉 点 了 | 入 名 
引 令 人 人 中 二 | 1 RE 




















=| LI D-cache 和 D-TLB(8KB, 4 路 ) 





6. 32 Pentium 4 处 理 器 的 逻辑 结构 


Pentium 4 处 理 器 主要 包含 两 部 分 : 处 理 器 核心 结构 和 L2 cache。 这 两 部 分 集成 在 同 
一 个 半导体 基 片 上 ,并 都 以 主 频 速度 运行 。 总 线 接口 部 件 和 预 取 控 制 逻辑 用 来 实现 L2 
cache 通过 前 端 总 线 与 处 理 器 片 外 进行 信息 交换 。L2 cache 中 包含 了 从 主 存 取 来 的 数据 和 
指令 ,采用 每 行 128B 的 8 路 组 相 联结 构 ,在 处 理 器 内 部 分 别 和 L1 数据 cache(L1 D-cache) 
和 指令 预 取 部 件 交换 数据 和 指令 。 

处 理 器 核心 部 分 主要 包括 指令 预 取 部 件 .指令 译 码 器 .Trace Cache、 微 代码 ROM 动态 
分 支 预测 器 BTB1 和 BTB2、 微 操作 缓冲 队列 资源 分 配 / 寄 存 器 换 名 / 微 操作 排队 /调度 /分 
派 部 件 、L1 数据 cache、 两 个 TLB、 整 数 与 浮 点 寄存 器 文件 ,以 及 9 个 功能 执行 部 件 。 

指令 预 取 部 件 负责 从 主 存 或 L2 cache 取出 指令 送 指令 译 码 器 ;指令 译 码 器 负责 将 简单 
指令 翻译 成 一 个 或 多 个 被 称 为 微 操作 (jop) 的 RISC 指令 。 转 换 得 到 的 nop 被 送 到 TC 中 。 
对 于 复杂 指令 ,由 于 对 应 的 微 操作 太 多 ,通过 硬件 转换 比较 困难 ,所 以 直接 送 TC, 由 TC 从 
微 码 ROM 中 直接 取 对 应 的 yop 序列 。 

当 pop 送 到 TC 后, 处理 器 就 按 “ 无 序 发 射 \ 无 序 完 成 ”的 20 级 超标 量 超 流水 线 方式 执 
行 , 如 图 6. 33 所 示 。 

Pentium 4 的 20 级 wop 流水线 分 6 大 步骤 ,分 别 用 5、4、5、2、1 和 3 个 时 钟 周期 完成 , 共 
20 个 时 钟 周期 。 因 为 驱动 段 不 完成 任何 操作 ,只 是 用 于 芯片 内 传输 信号 的 驱动 ,使 其 保证 
长 距离 传输 ,所 以 实际 功能 段 只 有 11 个 ,下 面 分 别 介绍 这 些 功 能 段 。 

1. TC 下 指针 (TC next IP) 

从 TC 取 pop 的 操作 使 用 的 是 TC 自身 的 指针 ,该 段 主要 用 来 计算 下 次 从 TC 取 pop 
时 的 指针 。 经 过 指令 译 码 器 ,指令 被 转换 为 op 序列 ,源源 不 断 地 送 到 TC 中 ,TC 中 pop 
按 一 条 条 踪迹 (trace) 存 放 , 分 支 wop 对 应 的 不 同 分 支 中 一 段 连 续 wop 序列 构成 一 个 踪迹 。 
通常 沿 一 个 踪迹 顺序 取 , 遇 到 一 个 分 支 yop 时 ,由 动态 预测 器 BTB2 预测 将 沿 哪 条 踪迹 顺序 
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图 6.33 Pentium 4 pop 的 20 级 流水 线 


取 。 如 果 被 预测 到 的 踪迹 不 在 TC 时 , 则 通知 指令 预 取 器 , 快 从 L2 中 取 指 令 并 译 码 。 

2. TC 取 (TC fetch) 

根据 TC 指针 从 TC 中 取出 pop, 送 到 yop 队列 。 在 取 wop 时, 若 取 到 的 是 从 译 码 器 直 
接送 来 的 未 转换 为 wop 的 复杂 指令 , 则 需要 到 微 代码 ROM 中 取出 该 复杂 指令 对 应 的 nop 
序列 。 通 常 ,一 条 简单 指令 最 多 包含 4 个 jop, 而 复杂 指令 则 包含 5 个 或 5 个 以 上 的 jop。 
微 代 码 ROM 实际 上 是 一 个 微 操 作 控制 器 。 

3. 分 配 (allocate) 

该 段 用 来 为 yop 的 执行 分 配 所 需 的 资源 ,这 些 资源 包括 ROB、 物 理 寄存 器 或 Load/ 
Store 缓冲 器 等 ,但 不 包括 功能 执行 单元 。ROB 用 来 记录 wop 的 执行 状态 ,共有 126 项 ,所 
以 最 多 可 以 有 126 个 jpop 同时 在 流水 线 中 。 一 个 时 钟 周期 内 分 配器 可 同时 为 3 个 pop 分 配 
资源 ,只 要 有 一 个 jop 所 需 资 源 不 能 满足 , 则 分 配器 延迟 操作 ,直到 3 个 yop 都 满足 为 止 。 

4. 换 名 (renaming) 

在 Pentium 4 内 部 ,整数 和 浮 点 数 各 有 128 个 物理 寄存 器 ,寄存 器 换 名 操作 将 用 户 可 见 
的 外 部 逻辑 寄存 器 换 成 内 部 的 物理 寄存 器 , 换 名 时 ,要 确定 是 真实 依赖 还 是 名 字 依 赖 。 若 为 
名 字 依 赖 时 ,可 用 不 同 的 物理 寄存 器 替换 相同 的 逻辑 寄存 器 。 

5. hop 排队 (queuing) 

有 两 个 队列 ,一 个 是 存 / 取 队列 ,用 于 存储 器 操作 , 另 一 个 是 整数 / 浮 点 数 队 列 , 用 于 除 存 
储 器 操作 以 外 的 其 他 所 有 操作 。 根 据 资源 分 配 情况 进行 寄存 器 换 名 后 , 按 FIFO 的 次 序 分 
别 送 这 两 个 队列 保存 ,直到 被 调度 出 去 。 因 此 ,队列 内 部 是 有 序 的 ,但 队列 之 间 的 pop 没有 
顺序 关系 。 

6. kop 调度 (scheduling) 

有 4 个 调度 器 ,其 中 一 个 存储 器 操作 调度 器 用 于 对 存 / 取 队列 中 的 wop 进行 调度 ,其 他 
3 个 都 是 对 整数 / 浮 点 数 队 列 中 的 wop 进行 调度 。 调 度 器 必须 检测 wop 流 的 数据 相关 性 ,以 
确定 wop 的 先后 次 序 。 

7. 分 派 (dispatching) 

根据 调度 结果 ,将 那些 没有 数据 相关 性 或 有 相关 性 但 所 有 源 操作 数 都 已 就 绪 的 pop 分 
派出 去 ,这 里 的 分 派 是 指 开始 启动 读 浮 点 /整数 寄存 器 文件 中 的 内 容 。 源 操作 数 就 绪 是 指 对 
应 ROB 中 的 状态 表明 结果 已 经 在 寄存 器 文件 中 。 

8. 寄存 器 文件 (register file) 

被 分 派 的 yop 在 该 阶段 读 取 物 理 寄 存 器 中 的 源 操作 数 , 若 源 操作 数 是 存储 器 数据 , 则 
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要 从 寄存 器 文件 中 的 旁 路 网 络 由 L1 D cache 读 取 。 

9. 执行 (execute) 

将 所 读 出 的 源 操作 数 送 到 相应 的 功能 部 件 执行 。 每 个 功能 部 件 也 采用 流水 线 方式 , 因 
而 所 需 时 钟 周期 数 不 同 。 一 共有 9 个 功能 部 件 ,可 同时 工作 。 其 中 有 两 个 高 速 整数 ALU 
(每 个 时 钟 周期 进行 两 次 操作 ) ,用 于 完成 简单 的 整数 运算 (如 加 减法 ); 一 个 慢 速 整数 ALU 
(需要 多 个 时 钟 周期 才能 完成 一 次 操作 ), 用 于 完成 整数 乘 、 除 法 运算 ;两 个 地 址 生成 部 件 
(AGU) ,用 于 计算 操作 数 的 有 效 地 址 ,所 生成 的 地 址 分 别 用 于 从 内 存 取 操作 数 或 向 内 存 保 
存 操作 结果 ;一 个 运算 部 件 用 于 完成 浮 点 操作 数 地 址 的 计算 ;一 个 运算 部 件 用 于 完成 浮 点 加 
法 .乘法 和 除法 运算 ;一 个 运算 部 件 用 于 执行 流 式 SIMD 处 理 (SSE/SSE2/SSE3 指令 ); 一 
个 运算 部 件 用 于 完成 多 媒体 信号 处 理 (MMX 指令 )。 注 意 : 在 运算 部 件 中 执行 的 是 微 操 
作 , 而 不 是 指令 。 

10. 标志 (flags) 

该 段 用 于 建立 标志 信息 (如 ZF/CF 等 ) ,并 将 执行 结果 写 人 物理 寄存 器 。 

11. 分 支 检测 (branch check) 

该 段 用 于 对 BTB2 中 的 分 支 预 测 进行 实际 确认 ,并 根据 确认 结果 修改 BTB2 中 该 项 的 
历史 位 。 若 预测 不 正确 , 则 还 要 清洗 (冲刷 ) 被 错误 执行 的 pop 序列 及 其 执行 结果 。 


6.5 本 章 小 结 


本 章 主要 介绍 如 何 利用 流水 线 来 提高 指令 执行 效率 。 主 要 内 容 包 括 : 指令 流水 线 的 一 
般 原理 ,流水 线 方式 下 的 吞吐 率 和 指令 执行 时 间 , 流 水 线 的 局 限 性 ,流水 线 数据 通路 的 设计 ， 
流水 线 的 控制 信号 ,流水 线 寄存 器 的 概念 ,流水 线 冒险 的 种 类 ,结构 冒险 及 其 处 理 , 数 据 冒 险 
及 其 处 理 ,转发 处 理 , 控 制 冒险 及 其 处 理 , 分 支 预 测 原理 ,以 及 超 流水 线 , 超 标量 和 动态 流水 
线 等 高 级 流水 线 的 概念 。 

指令 流水 线 的 基本 思想 是 ,将 每 条 指令 的 执行 规整 化 为 若干 个 同样 的 流水 阶段 ,每 个 流 
水 阶段 的 执行 时 间 以 最 慢 的 流水 段 所 需 时 间 为 准 ,等 于 一 个 时 钟 周 期 。 理 想 情况 下 ,每 个 时 
钟 有 一 条 指令 进入 流水 线 , 并 有 一 条 指令 执行 结束 。 每 个 流水 段 中 的 部 件 都 是 组 合 逻 辑 部 
件 ,流水 段 之 间 需 要 加 流水 段 寄 存 器 ,组 合 逻 辑 中 产生 的 结果 在 时 钟 到 来 时 被 存储 到 流水 段 
寄存 器 中 。 流 水 段 寄存 器 用 以 记录 所 有 流 到 后 面 阶段 时 要 用 的 各 种 信息 ,例如 控制 信号 、 指 
令 、 新 的 PC 值 .参加 运算 的 操作 数 、 指 令 运算 结果 、 指 令 异常 信息 、 寄 存 器 读 口 地 址 、 寄 存 器 
写 口 地 址 、 存 储 地 址 等 。 指 令 译 码 得 到 的 控制 信号 通过 流水 段 寄 存 器 与 本 指令 的 数据 信息 
一 起 ,同步 传送 到 后 面 各 个 流水 段 。 

因为 不 同 指令 的 功能 不 同 , 因 此 并 不 是 每 条 指令 都 能 划分 成 相同 的 多 个 阶段 。 按 最 复 
杂 指 令 的 需要 规划 流水 段 后 ,有 些 指令 的 某 些 流水 段 执行 的 可 能 是 空 操作 。 不 同 流水 阶段 
的 功能 也 可 能 不 同 , 并 不 是 每 个 流水 段 所 花 的 时 间 都 一 样 长 , 按 最 长 时 间 流 水 段 设置 时 钟 周 
期 后 , 某 些 流水 段 中 可 能 会 有 时 间 浪 费 。 随 着 流水 线 深度 的 增加 ,流水 段 寄存 器 的 额外 开销 
比例 也 会 增 大 。 指 令 在 资源 冲突 、 数 据 相关 或 控制 相关 时 会 发 生 流 水 线 阻 塞 ,因而 影响 指令 
执行 效率 。 

流水 线 方式 比 非 流水 线 方式 的 执行 速度 可 提高 若干 倍 , 理 想 情 况 下 ,其 倍数 为 划分 的 流 
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水 段 个 数 。 不 过 ,由 于 流水 段 划分 要 求 的 一 致 性 ,以 及 流水 段 寄存 器 的 额外 开销 ,使 得 流水 
线 方式 下 一 条 指令 的 执行 时 间 更 长 了 。 

结构 冒险 (资源 冲突 ) 是 指 多 条 指令 同时 要 求 使 用 同一 个 功能 部 件 。 通 常规 定 每 个 功能 
部 件 在 一 条 指令 中 只 能 被 使 用 一 次 ,并 且 规 定 每 个 功能 部 件 只 能 在 某 个 特定 的 阶段 被 使 用 ， 
另外 ,将 指令 存储 器 (code cache) 和 数据 存储 器 (data cache) 分 开 , 可 以 消除 存储 器 访问 
冲突 。 

数据 冒险 (数据 相关 ) 是 指 前 面 指 令 的 目的 操作 数 是 后 面 指令 的 源 操作 数 。 可 以 采用 以 
下 方式 解决 数据 冒险 : 

(1) 用 软件 (如 编译 器 ) 在 后 面 的 数据 相关 指令 前 插入 nop 指令 。 

(2) 利用 “转发 ( 旁 路 )” 技 术 把 前 面 指令 执行 过 程 中 得 到 的 数据 直接 传送 到 后 面 指令 需 
要 使 用 数据 的 地 方 。 

(3) 在 硬件 检测 到 数据 相关 时 ,使 后 面 的 数据 相关 指令 进入 停顿 状态 , 即 在 特定 的 流水 
段 中 插入 “气泡 ”以 阻塞 指令 继续 执行 ,直到 取得 所 需 数据 为 止 。 

(4) 对 于 Load-use 数据 冒险 ,采用 “阻塞 加 转发 ”的 方式 解决 数据 冒险 。 

控制 冒险 (控制 相关 ) 是 指 指令 不 按 顺 序 执行 时 导致 的 冒险 。 第 一 种 是 转移 指令 引起 
的 ,如 分 支 . 调 用 ,返回 、 跳 转 等 指令 (统称 为 转移 指令 )。 转 移 指令 需要 计算 目标 转移 地 址 ， 
分 支 指令 还 需 根 据 条 件 确定 新 的 PC 值 。 由 于 获取 转移 目标 地 址 的 时 间 较 长 ,使 得 在 目标 
地 址 产生 前 ,后续 指令 已 被 取 到 流水 线 中 。 如 果 已 经 取出 并 正在 执行 的 指令 不 是 应 该 执行 
的 指令 , 则 发 生 了 控制 冒险 。 分 支 指令 引起 的 控制 冒险 称 为 分 支 冒险 。 第 二 种 是 异常 和 中 
断 引 起 的 。 当 处 理 器 检测 到 发 生 异 常 和 中 断 时 ,可 能 有 多 条 不 该 执行 的 指令 已 在 流水 线 中 
执行 ,因而 会 导致 控制 冒险 。 

可 以 采用 以 下 方式 解决 第 一 种 控制 冒险 : 

(1) 由 编译 器 在 转移 指令 后 面 插入 nop 指令 (插入 指令 条 数 等 于 延迟 损失 时 间 片 )。 

(2) 在 硬件 检测 到 有 关 转 移 指令 时 ,使 后 面 若干 条 指令 (指令 条 数 等 于 延迟 损失 时 间 
片 ) 进 入 停顿 状态 , 即 在 特定 的 流水 段 中 插入 “气泡 ”以 阻塞 指令 继续 执行 ,直到 能 确定 正确 
的 PC 值 为 止 。 

(3) 对 于 分 支 冒险 ,可 结合 采用 “分 支 预 测 ” 技 术 。 有 简单 (静态 ) 预 测 和 动态 预测 两 种 
方式 。 静 态 预 测 方式 下 ,预测 的 结果 是 固定 的 ,总 是 预测 转移 (taken) 或 不 转移 (not taken); 
动态 预测 方式 下 ,预测 位 根据 分 支 指令 执行 的 历史 情况 进行 调整 。 动 态 预 测 比 静态 预测 成 
功率 高 得 多 。 

(4) 对 于 分 支 冒险 ,还 可 采用 延迟 分 支 技 术 , 即 ,将 前 面 几 条 与 转移 指令 无 关 的 指令 放 
到 分 支 指令 后 面 的 延迟 柳 中 执行 ,无 关 指 令 不 够 时 用 nop 指令 填 满 延迟 槽 。 这 样 ,硬件 不 
需 对 流水 线 进行 阻塞 ,对 指令 顺序 进行 调整 的 工作 在 编译 阶段 完成 。 

在 时 间 和 空间 上 进一步 提高 指令 级 并 行 性 的 高 级 流水 线 技术 通常 有 3 种 措施 。 

(1) 超 流水 线 : 将 指令 执行 过 程 划分 得 更 细 , 采 用 更 多 级 数 的 流水 线 ,着 重 在 于 时 间 上 
并 行 。 
(2) 多 发 射流 水 线 ( 超 标量 处 理 器 ) : 同时 发 射 多 条 指令 ,并 由 多 个 功能 部 件 并 行 执行 ， 
着 重 在 于 空间 上 并 行 。“ 指 令 打 包 ? 和 ”冒险 处 理 ? 是 实现 多 发 射 的 两 个 基本 任务 。 静 态 多 发 
射 指 “ 指 令 打包 ”和 “冒险 处 理 ” 任 务 主要 由 编译 器 静态 完成 ,打包 后 的 指令 相当 于 一 条 由 多 
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条 指令 组 成 的 长 指令 ,被 同时 发 射 执行 ,因此 ,这 类 处 理 器 有 时 被 称 为 VLIW 处 理 器 。Intel 
公司 的 IA-64 架构 采用 这 种 方法 ,Intel 公司 称 其 为 EPIC 技术 。 动 态 多 发 射 指 由 处 理 器 硬 
件 在 指令 执行 时 动态 确定 哪些 指令 被 同时 发 射 , 如 果 没 有 可 以 被 同时 发 射 的 指令 或 遇 到 指 
令 相 关 时 , 则 某 些 流水 段 空闲 。 目 前 超标 量 处 理 器 多 指 采用 动态 多 发 射流 水 线 的 处 理 器 ,并 
且 通 常会 结合 采用 动态 流水 线 调度 技术 。 

(3) 动态 流水 线 调 度 : 处 理 器 通过 指令 相关 性 检测 和 动态 分 支 预 测 等 手段 ,投机 性 地 
不 按 指令 顺序 执行 。 即 , 当 发 生 流水 线 阻塞 时 ,根据 指令 的 依赖 关系 ,动态 地 到 后 面 找 一 些 
没有 依赖 关系 的 指令 提前 执行 。 在 动态 流水 线 调度 下 ,指令 被 “ 乱 序 ” 执 行 。 


习 题 
1. 给 出 以 下 概念 的 解释 说 明 。 
指令 流水 线 流水 线 深 度 指令 吞吐 量 流水 段 寄 存 器 
IPC 流水 线 冒 险 结构 冒险 数据 冒险 
流水 线 阻塞 气泡 空 操作 转发 ( 旁 路 ) 
控制 冒险 分 支 预 测 动态 预测 延迟 时 间 损 失 片 
分 支 延 迟 槽 静态 多 发 射 动态 多 发 射 超 流水 线 
超 长 指令 字 (VLIW) ”超标 量 流水 线 动态 流水 线 调度 按 序 发 射 
无 序 发 射 存储 站 重 排序 缓冲 (ROB) 乱 序 执行 
按 序 完成 无 序 完成 写 后 读 (RAW) 相 关 写 后 写 (WAW) 相 关 


2. 简单 回答 下 列 问题 。 

(1) 流水 线 方式 下 ,一 条 指令 的 执行 时 间 缩 短 了 还 是 加 长 了 ? 程序 的 执行 时 间 缩 短 了 还 是 加 长 了 ? 

(2) 具有 什么 特征 的 指令 集 易于 实现 指令 流水 线 ? 

(3) 流水 线 处 理 器 中 时 钟 周期 如 何 确定 ? 单条 流水 线 处 理 器 的 CPI 为 多 少 ? 每 个 时 钟 周期 一 定 有 一 
条 指令 完成 吗 ? 为 什么 ? 

(4) 流水 线 处 理 器 的 控制 器 实现 方式 更 类 似 于 单 周 期 控制 器 还 是 多 周期 控制 器 ? 为 什么 ? 

(5) 为 什么 要 在 各 流水 段 之 间 加 寄存 器 ? 各 流水 段 寄 存 器 的 宽度 是 否 都 一 样 ? 为 什么 ? 

(6) 你 能 列 出 哪 几 种 流水 线 被 阻塞 的 情况 ? 

(7) 超 流水 线 和 多 发 射流 水 线 的 主要 区 别 是 什么 ? 

(8) 静态 多 发 射流 水 线 和 动态 多 发 射流 水 线 的 主要 区 别 是 什么 ? 

(9) 为 什么 说 Pentium 4 是 “CISC 壳 、RISC 核 ” 的 体系 结构 ? 

3. 假定 在 一 个 5 级 流水 线 ( 如 图 6.5 所 示 ) 人 处理 器 中 ,各 主要 功能 单元 的 操作 时 间 为 : 存储 单元 一 
200ps; ALU 和 加 法 器 一 150ps; 寄 存 器 堆 读 口 或 写 口 一 50ps。 请 问 : 

(1) 若 执行 阶段 Exec 所 用 的 ALU 操作 时 间 缩 短 20%, 则 能 否 加 快 流水 线 执行 速度 ? 如 果 能 ,能 加 快 
多 少 ? 如 果 不 能 ,为 什么 ? 

(2) 若 ALU 操作 时 间 增 加 20% ,对 流水 线 的 性 能 有 何 影响 ? 

(3) 若 ALU 操作 时 间 增 加 40% ,对 流水 线 的 性 能 又 有 何 影 响 ? 

4. 假定 某 计算 机 工程 师 想 设计 一 个 新 的 CPU, 一 个 典型 程序 的 核心 模块 有 一 百 万 条 指令 ,每 条 指令 
执行 时 间 为 100ps。 请 问 : 

(1) 在 非 流水 线 处 理 器 上 执行 该 程序 需要 花 多 长 时 间 ? 

(2) 若 新 CPU 采用 20 级 流水 线 , 执 行 上 述 同 样 的 程序 ,理想 情况 下 , 它 比 非 流水 线 处 理 器 快 多 少 ? 

(3) 实际 流水 线 并 不 是 理想 的 ,流水 段 之 间 的 数据 传送 会 有 额外 开销 。 这 些 开销 是 否 会 影响 指令 执行 


背 仿 流水 线 


时 间 和 指令 吞吐 率 ? 

5. 假定 最 复杂 的 一 条 指令 所 用 的 组 合 逻辑 分 成 6 部 分 ,依次 为 A~ 下 ,其 延迟 分 别 为 80ps、30ps、60ps、 
50ps、70ps、10ps。 在 这 些 组 合 逻辑 块 之 间 插 入 必要 的 流水 段 寄 存 器 就 可 实现 相应 的 指令 流水 线 ,寄存 器 延 
迟 为 20ps。 理 想 情 况 下 ,以 下 各 种 方式 所 得 到 的 时 钟 周期 .指令 吞吐 率 和 指令 执行 时 间 各 是 多 少 ? 应 该 在 
哪里 插入 流水 段 寄 存 器 ? 

(1) 插入 一 个 流水 段 寄存 器 ,得 到 一 个 两 级 流水 线 。 

(2) 插入 两 个 流水 段 寄 存 器 ,得 到 一 个 三 级 流水 线 。 

(3) 插入 三 个 流水 段 寄 存 器 ,得 到 一 个 四 级 流水 线 。 

(4) 吞吐 量 最 大 的 流水 线 。 

6. 以 下 指令 序列 中 ,哪些 指令 对 之 间 发 生 数 据 相关 ? 假定 采用 “ 取 指 、 译 码 / 取 数 、 执 行 、 访 存 、 写 回 ”5 
段 流 水 线 方式 ,如 果 不 用 “转发 "技术 ,需要 在 发 生 数 据 相 关 的 指令 前 加 入 几 条 nop 指令 才能 使 这 段 程序 避 
免 数 据 冒 险 ? 如 果 采 用 “转发 ”是否 可 以 完全 解决 数据 冒险 ? 不 行 的话 , 需 要 在 发 生 数据 相关 的 指令 前 加 
入 几 条 nop 指令 才能 使 这 段 MIPS 程序 不 发 生 数 据 冒 险 ? 





addu $s3, $sl, $s0 
addu $t2, $s3, $s3 
1w $t1, 0($t2) 

add $t3, $t1, $t2 


7. 假定 以 下 MIPS 指令 序列 在 图 6. 18 所 示 的 流水 线 数据 通路 中 执行 : 


addu $s3, $sl, $s0 
subu $t2, $s3, $s3 
1w $t1, 0($t2) 


add $t3, $t1l, $t2 
add $t1, $s4, $s5 
请 问 : 


(1) 上 述 指 令 序列 中 ,哪些 指令 的 哪个 寄存 器 需要 转发 ,转发 到 何 处 ? 

(2) 上 述 指 令 序列 中 ,是 否 存在 Load-use 数据 冒险 ? 

(3) 第 5 周期 结束 时 ,各 指令 执行 状态 是 什么 ? 哪些 寄存 器 的 数据 正 被 读 出 ?哪些 寄存 器 将 被 写 人 ? 

8. 假定 有 一 个 程序 的 指令 序列 为 “lw, add, lw, add,…”。add 指令 仅 依赖 它 前 面 的 lw 指令 ,而 lw 指 
令 也 仅 依赖 它 前 面 的 add 指令 ,寄存 器 写 口 和 寄存 器 读 口 分 别 在 一 个 时 钟 周期 的 前 、 后 半 个 周期 内 独立 工 
作 。 请 问 : 

(1) 在 带 转发 的 5 段 流水 线 中 执行 该 程序 ,其 CPI 为 多 少 ? 

(2) 在 不 带 转 发 的 5 段 流水 线 中 执行 该 程序 ,其 CPI 为 多 少 ? 

9. 假定 在 一 个 带 转发 的 5 段 流 水 线 中 执行 以 下 MIPS 程序 段 , 则 怎样 调整 指令 序列 使 其 性 能 达到 
最 好 ? 

lw $2, 100($6) 

add $2, $2, $3 

1w $3, 200($7) 

add $6, $4, $7 

sub $3, $4, $6 

lw $2, 300($8) 

beq $2, $8, Loop 


10. 在 一 个 采用 “ 取 指 、 译 码 / 取 数 、 执 行 . 访 存 、 写 回 ” 的 5 段 流 水 线 中 , 若 检 测 结 果 是 否 为 “ 零 ”的 操作 
在 执行 阶段 进行 , 则 分 支 延迟 损失 时 间 片 ( 即 分 支 延迟 槽 ) 为 多 少 ? 以 下 一 段 MIPS 指令 序列 中 ,在 考虑 数 
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据 转发 的 情况 下 ,哪些 指令 执行 时 会 发 生 流水 线 阻塞 ? 各 需要 阻塞 几 个 时 钟 周期 ? 


Loop: add $t1, $s3, $s3 
add $t1, $t1, $t1 
add $t1, $t1, $s6 
1w $t0, 0($t1) 
bne $t0, $s5, Exit 
add $s3, $s3, $s4 


Exit: 


11. 假设 数据 通路 中 各 主要 功能 单元 的 操作 时 间 为 : 存储 单元 一 200ps,ALU 和 加 法 器 一 100ps, 寄 存 
器 堆 读 口 或 写 口 一 50ps。 程 序 中 指令 的 组 成 比例 为 : 取 数 25%% , 存 数 10% ,ALU 52%% ,分 支 11%, 跳 转 
2%。 假 设 MUX ,控制 单元 .PC 扩展 器 和 传输 线路 等 的 延迟 都 忽略 不 计 , 则 下 面 的 实现 方式 中 哪个 更 快 ? 
快 多 少 ? 

(1) 单 周期 方式 : 每 条 指令 在 一 个 固定 长 度 的 时 钟 周期 内 完成 。 

(2) 多 周期 方式 : 时 钟 周 期 取 存 储 单元 操作 时 间 的 一 半 , 每 类 指令 时 钟 数 为 : 取 数 一 7, 存 数 一 6， 
ALU 一 5, 分 支 一 4, 跳 转 一 4。 

(3) 流水 线 方式 : 采用 “ 取 指 1、 取 指 2、 取 数 / 译 码 、 执 行 、 存 取 1、 存 取 2、 写 回 ”7 段 流水 线 ; 没 有 结构 冒 
险 ; 数 据 冒 险 采 用 “转发 ”技术 处 理 ; Load 指令 与 后 续 各 指令 之 间 存 在 依赖 关系 的 概率 分 别 为 1/2、1/4、 
1/8、…; 分 支 延迟 损失 时 间 片 为 2, 预 测 准确 率 为 75% ;不 考虑 异常 ,中断 和 访问 缺失 引起 的 流水 线 冒 险 。 

12. 有 一 段 程序 的 核心 模块 中 有 5 条 分 支 指令 ,该 模块 将 会 被 执行 成 千 上 万 次 ,在 其 中 一 次 执行 过 程 
中 ,5 条 分 支 指令 的 实际 执行 情况 如 下 (T: Taken; N: not Taken) 。 

分 支 指令 1: T-T-T。 

分 支 指令 2: N-N-N-N。 

分 支 指令 3: T-N-T-N-T-N。 

分 支 指令 4: T-T-T-N-T。 

分 支 指令 5: T-T-N-T-T-N-T。 

假定 各 个 分 支 指令 在 每 次 模块 执行 过 程 中 实际 执行 情况 都 一 样 ,并 且 动态 预测 时 ,每 个 分 支 指令 都 有 
自己 的 预测 表 项 ,每 次 执行 该 模块 时 的 初始 预测 位 都 相同 。 请 分 析 并 给 出 以 下 几 种 预测 方案 的 预测 准 
确 率 。 

(1) 静态 预测 ,总 是 预测 转移 (Taken) 。 

(2) 静态 预测 ,总 是 预测 不 转移 (not Taken) 。 

(3) 一 位 动态 预测 ,初始 预测 转移 (Taken) 。 

(4) 二 位 动态 预测 ,初始 预测 弱 转 移 (Taken) 。 





Ee 
存储 器 分 层 体 系 结构 


存储 器 是 计算 机 系统 的 重要 组 成 部 分 ,用 来 存放 程序 和 数据 。 有 了 存储 器 ,计算 机 就 有 
了 记忆 能 力 , 从 而 能 自动 地 从 存储 器 中 取出 保存 的 指令 按 序 进行 操作 。 计 算 机 中 所 用 的 记 
忆 元 件 有 多 种 类 型 ,如 寄存 器 .静态 RAM ,动态 RAM、 磁 盘 、 磁 带 、 光 盘 等 ,它们 各 自 有 不 同 
的 速度 、 容 量 和 价格 ,各 类 存储 器 按照 层次 化 方式 构成 存储 器 分 层 体系 结构 。 

本 章 主要 介绍 构成 存储 器 分 层 体系 结构 的 几 类 存储 器 的 工作 原理 和 组 织 形式 。 包 括 半 
导体 随机 存 取 存 储 器 、 只 读 存 储 器 和 Flash 存储 器 的 基本 读 写 原理 和 组 织 结构 ,存储 器 芯片 
和 CPU 的 连接 ,并行 存储 器 结构 ,高 速 缓存 的 基本 原理 和 实现 技术 ,以 及 虚拟 存储 器 系统 
的 实现 技术 。 


7.1 存储 器 概述 


7.1.1 存储 器 的 分 类 


根据 存储 器 的 特点 和 使 用 方法 的 不 同 , 可 以 有 以 下 几 种 分 类 方法 。 

1. 按 存储 元 件 分 类 

存储 元 件 必须 具有 两 个 截然 不 同 的 物理 状态 ,才能 被 用 来 表示 二 进 制 代码 0 和 1。 目 
前 使 用 的 存储 元 件 主要 有 半导体 器 件 、 磁 性 材料 和 光 介 质 。 用 半导体 器 件 构成 的 存储 器 称 
为 半导体 存储 器 ;磁性 材料 存储 器 主要 是 磁 表 面 存储 器 ,如 磁盘 存储 器 和 磁带 存储 器 ; 光 介 
质 存储 器 称 为 光盘 存储 器 。 

2. 按 存 取 方 式 分 类 

1) 随机 存 取 存储 器 

随机 存 取 存 储 器 (Random Access Memory,RAM) 的 特点 是 按 地 址 访问 存储 单元 ,因为 
每 个 地 址 译 码 时 间 相 同 ,所 以 ,在 不 考虑 芯片 内 部 缓冲 的 前 提 下 ,每 个 单元 的 访问 时 间 是 一 
个 常数 ,与 地 址 无 关 。 不 过 ,现在 的 DRAM 芯片 内 都 具有 行 缓冲 ,因而 有 些 数据 可 能 因为 
已 在 缓冲 而 缩短 了 访问 时 间 。 半 导体 存储 器 属于 随机 存 取 存储 器 ,可 用 作 cache 和 主 存 
储 器 。 

2) 顺序 存 取 存 储 器 

顺序 存 取 存储 器 (Sequential Access Memory,SAMD 的 特点 是 信息 按 顺 序 存放 和 读 出 ， 
其 存 取 时 间 取 决 于 信息 存放 位 置 ,以 记录 块 为 单位 编 址 。 磁 带 存储 器 就 是 一 种 顺序 存 取 存 


计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





储 器 ,其 存储 容量 大 ,但 存 取 速度 慢 。 

3) 直接 存 取 存储 器 

直接 存 取 存储 器 (Direct Access Memory,DAM) 的 存 取 方 式 兼 有 随机 访问 和 顺序 访问 
的 特点 。 首 先 可 直接 选取 所 需 信息 所 在 区 域 ,然后 按 顺 序 方式 存 取 , 磁 盘存 储 器 就 是 如 此 。 

4) 相 联 存储 器 

上 述 3 类 存储 器 都 是 按 所 需 信息 的 地 址 来 访问 ,但 有 些 情况 下 可 能 不 知道 所 访问 信息 
的 地 址 ,只 知道 要 访问 信息 的 内 容 特 征 , 此 时 ,只 能 按 内 容 检索 到 存储 位 置 进 行 读 写 。 这 种 
存储 器 称 为 按 内 容 访 问 存 储 器 (Content Addressed Memory, CAM) 或 相 联 存储 器 
(Associative Memory) 。 例 如 , 快 表 就 是 一 种 相 联 存储 器 。 

3. 按 信息 的 可 更 改 性 分 类 

按 信息 的 可 更 改 性 分 为 读 写 存 储 器 (Read/Write Memory) 和 只 读 存 储 器 (Read Only 
Memory)。 读 写 存 储 器 中 的 信息 可 以 读 出 和 写 人 ,RAM 芯片 是 一 种 读 写 存储 器 ;只 读 存储 
器 用 ROM 表示 ,ROM 芯片 中 的 信息 一 旦 确定 ,通常 情况 下 只 读 不 写 ,但 在 某 些 情况 下 也 可 
重新 写 人 。 

RAM 芯片 和 ROM 芯片 都 采用 随机 存 取 方 式 进行 信息 的 访问 。 

4. 按 断 电 后 信息 的 可 保存 性 分 类 

按 断 电 后 信息 的 可 保存 性 分 成 非 易 失 (不 挥发 ) 性 存储 器 (nonvolatile memory) 和 易 失 
(挥发 ) 性 存储 器 (volatile memory)。 非 易 失 性 存储 器 的 信息 可 一 直 保 留 ,不 需 电 源 维持 。 
如 ROM. 磁 表面 存储 器 、 光 存储 器 等 ; 易 失 性 存储 器 在 电源 关闭 时 信息 自动 丢失 。 如 
RAM cache 等 。 

5. 按 功能 分 类 

1) 高 速 缓冲 存储 器 

目前 高 速 缓存 (cache) 由 静态 RAM 芯片 组 成 ,位 于 主 存 和 CPU 之 间 , 存 取 速 度 接近 
CPU 的 工作 速度 ,用 来 存放 当前 CPU 经 常 使 用 到 的 指令 和 数据 。 

2) 主 存储 器 

指令 直接 面向 的 存储 器 是 主 存储 器 ,简称 主 存 。CPU 执行 指令 时 给 出 的 存储 器 地 址 是 
主 存 地 址 (虚拟 存储 系统 中 ,需要 将 指令 给 出 的 逻辑 地 址 转换 成 主 存 地 址 )。 因 此 , 主 存 是 存 
储 器 分 层 体系 结构 中 的 核心 存储 器 ,用 来 存放 系统 中 被 启动 运行 的 程序 及 其 数据 , 主 存 目前 
一 般 用 MOS 管 半 导体 存储 器 构成 。 

3) 辅助 存储 器 

系统 运行 时 直接 和 主 存 交 换 信 息 的 存储 器 称 为 辅助 存储 器 ,简称 辅 存 。 磁 盘存 储 器 相 
对 于 磁带 和 光盘 存储 器 速度 快 ,因此 ,目前 大 多 用 磁盘 存储 器 作为 辅 存 , 辅 存 的 内 容 需 要 调 
入 主 存 后 才能 被 CPU 访问 。 

4) 海量 后 备 存储 器 

磁带 存储 器 和 光盘 存储 器 的 容量 大 .速度 慢 , 主要 用 于 信息 的 备份 和 脱 机 存档 ,因此 被 
用 作 海 量 后 备 存储 器 。 

辅 存 和 海量 后 备 存储 器 统称 为 外 部 存储 器 ,简称 外 存 。 


7.1.2 主 存储 器 的 组 成 和 基本 操作 
图 7.1 是 主 存储 器 (Main Memory, MM) 的 基本 框图 。 其 中 由 一 个 个 存储 0 或 1 的 记 
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忆 单 元 (celD) 构 成 的 存储 阵列 是 存储 器 的 核心 部 分 。 这 种 记忆 单元 也 称 为 存储 元 、 位 元 , 它 
是 具有 两 种 稳 态 的 能 表示 二 进 制 0 和 1 的 物理 器 件 。 存 储 阵 列 (bank) 也 被 称 为 存储 体 、 存 
储 和 矩阵。 为 了 存 取 存 储 体 中 的 信息 ,必须 对 存储 单元 编号 ,所 编号 码 就 是 地 址 。 编 址 单位 
(addressing unit) 是 指 具 有 相同 地 址 的 那些 位 元 构成 的 一 个 单位 ,可 以 是 一 个 字 节 或 一 个 
字 。 对 各 存储 单元 进行 编号 的 方式 称 为 编 址 方式 (addressing mode) ,可 以 按 字 节 编 址 ,也 
可 以 按 字 编 址 。 现 在 大 多 数 通用 计算 机 都 采用 字 节 编 址 方式 ,此 时 ,存储 体内 一 个 地 址 中 有 
一 个 字 节 。 也 有 许多 专用 于 科学 计算 的 大 型 计算 机 采用 64 位 编 址 ,这 是 因为 科学 计算 中 数 
据 大 多 是 64 位 浮 点 数 。 
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图 7.1 主 存储 器 基本 框图 


指令 执行 过 程 中 需要 访问 主 存 时 ,CPU 首先 把 被 访问 单元 的 地 址 送 到 主 存 地 址 寄存 器 
(Memory Address Register,MAR) 中 ,然后 通过 地 址 线 将 主 存 地 址 送 到 主 存 中 的 地 址 寄存 
器 ,以 便 地 址 译 码 器 进行 译 码 选中 相应 单元 ,同时 ,CPU 将 读 写 信号 通过 控制 线 送 到 主 存 的 
读 写 控制 电路 。 如 果 是 写 操 作 ,CPU 同时 将 要 写 的 信息 送 主 存 数据 寄存 器 (Memory Data 
Register, MDR) 中 ,在 读 写 控 制 电路 的 控制 下 ,经 数据 线 将 信息 写 入 选中 的 单元 ;如 果 是 读 
操作 , 则 主 存 读 出 选中 单元 的 内 容 送 数据 线 ,然后 被 送 到 MDR 中 。 数 据 线 的 宽度 与 MDR 
的 宽度 相同 ,地 址 线 的 宽度 与 MAR 的 宽度 相同 。 图 7. 1 中 采用 64 位 数据 线 , 所 以 在 字 节 
编 址 方式 下 ,每 次 最 多 可 以 存 取 8 个 单元 的 内 容 。 地 址 线 的 位 数 决定 了 主 存 地 址 空间 的 最 
大 可 寻 址 范围 ,例如 ,36 位 地 址 的 最 大 寻 址 范围 为 0 一 天 一 1, 即 地 址 从 0 开始 编号 。 


7.1.3 存储 器 的 主要 性 能 指标 


虽然 在 计算 机 出 现 至 今 的 几 十 年 内 ,存储 器 介质 和 特性 有 了 很 大 变化 ,但 评价 其 性 能 的 
主要 指标 仍然 是 容量 价格 和 速度 。 

存储 器 容量 指 它 能 存放 的 二 进 制 位 数 或 字 ( 字 节 ) 数 。 存 储 器 的 价格 可 用 总 价格 C 或 
每 位 价格 c 来 表示 , 若 存储 器 按 位 计算 的 容量 为 5, 则 c 一 C/S。 总 价 C 中 应 包括 存储 单元 
本 身 的 价格 以 及 完成 存储 器 操作 所 必需 的 外 围 电路 的 价格 。 存 储 器 速度 可 用 访问 时 间 、 存 
储 周 期 或 带宽 来 表示 。 

访问 时 间 一 般 用 读 出 时 间 TA 及 写 人 时 间 Tw 来 描述 。T。 是 指 从 存储 器 接 到 读 命令 
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开始 至 信息 被 送 到 数据 线 上 所 需 的 时 间 , Tw 是 指 存储 器 接 到 写 命令 开始 至 信息 被 写 人 存 
储 器 所 需 的 时 间 。 

存储 周期 是 指 存 储 器 进行 一 次 读 写 操 作 所 需要 的 全 部 时 间 , 也 就 是 存储 器 进行 连续 读 
写 操作 所 允许 的 最 短 间隔 时 间 。 它 应 等 于 访问 时 间 加 上 下 一 次 存 取 开 始 前 所 要 求 的 附加 时 
间 ,一 般 用 Tw 表示 。 存 储 器 中 由 于 读 出 放大 器 、 驱 动 电路 等 都 有 一 段 稳定 恢复 时 间 , 读 出 
后 不 能 立即 进行 下 一 次 访问 。 所 以 ,一般 Tv、T 和 Tw 存在 以 下 关系 : Tu>TA,Tu>Tvw。 

存储 器 的 带宽 B 表示 存储 器 被 连续 访问 时 可 以 提供 的 数据 传送 速率 ,通常 用 每 秒 钟 传 
送信 息 的 位 数 (或 字 节 数 ) 来 衡量 。 


7.1.4 存储 器 的 层次 化 结构 


存储 器 容量 和 性 能 应 随 着 处 理 器 速度 和 性 能 的 提高 而 同步 提高 ,以 保持 系统 性 能 的 平 
衡 。 然 而 ,在 过 去 20 多 年 中 , 随 着 时 间 的 推移 ,处 理 器 和 存储 器 在 性 能 发 展 上 的 差异 越 来 越 
大 ,存储 器 在 容量 尤其 是 访问 延 时 方面 的 性 能 增长 越 来 越 跟 不 上 处 理 器 性 能 发 展 的 需要 。 
为 了 缩小 存储 器 和 处 理 器 两 者 之 间 在 性 能 方面 的 差距 ,通常 在 计算 机 内 部 采用 层次 化 的 存 
储 器 体系 结构 。 

因为 某 一 种 元 件 制造 的 存储 器 很 难 同时 满足 大 容量 、 高 速度 和 低 成 本 的 要 求 。 比 如 双 
极 型 半导体 存储 器 的 存 取 速度 快 ,但 是 难以 构成 大 容量 存储 器 。 而 大 容量 、 低 成 本 的 磁 表 面 
存储 器 的 存 取 速 度 又 远 低 于 半导体 存储 器 ,并 且 难 以 实现 随机 存 取 。 因 此 ,在 计算 机 中 把 各 
种 不 同 容量 和 不 同 存 取 速度 的 存储 器 按 一 定 的 结构 有 机 地 组 织 在 一 起 ,形成 层次 化 的 存储 
器 体系 结构 。 程 序 和 数据 按 不 同 的 层次 存放 在 各 级 存储 器 中 ,整个 存储 系统 在 速度 、 容 量 和 
价格 等 方面 具有 较 好 的 综合 性 能 指标 。 图 7. 2 是 存储 系统 层次 结构 示意 图 。 






































在册 出 间 寄存 器 i 
2ns 高 速 缓存 (cache)| 4MB 
询 坟 主 存储 器 (RAM 和 ROM) | 内 部 存储 器 500MB~4GB 
loms 辅助 存储 器 (硬盘 ) 外 部 存储 器 40~500GB 
10s 海量 后 备 存储 器 (磁带 库 、 光 盘 库 ) 10~100TB 











图 7.2 存储 系统 层次 结构 示意 图 


虽然 图 7. 2 中 给 出 的 典型 存 取 时 间 和 存储 容量 会 随时 间 变 化 ,但 这 些 数 据 反映 了 速度 
和 容量 之 间 的 关系 ,以 及 层次 化 结构 存储 器 的 构成 思想 。 速 度 越 快 则 容量 越 小 , 越 靠近 
CPU。CPU 可 以 直接 访问 内 部 存储 器 ,而 外 部 存储 器 的 信息 则 要 先 取 到 主 存 , 然 后 才能 被 
CPU 访问 。 

数据 一 般 只 在 相 邻 两 层 之 间 复 制 传送 ,而 且 总 是 从 慢 速 存储 器 复制 到 快速 存储 器 被 使 
用 。 传 送 的 单位 是 一 个 定 长 块 , 因 此 需要 确定 定 长 块 的 大 小 ,并 在 相 邻 两 层 间 建 立 块 映射 
关系 。 

CPU 执行 指令 时 ,需要 的 操作 数 大 部 分 都 来 自 寄存 器 。 如 果 需 要 从 存储 器 中 取 数 据 
(或 向 其 中 存 数据 ) 时 , 先 访问 cache; 如 果 不 在 cache, 则 访问 主 存 ; 如 果 不 在 主 存 , 则 访问 硬 
盘 , 此 时 ,操作 数 从 硬盘 中 读 出 送 到 主 存 , 然 后 从 主 存 送 到 cache。 
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7.2 半导体 随机 存 取 存储 器 


半导体 读 写 存储 器 简称 RWM ,习惯 上 多 称 为 RAM。 半 导体 RAM 具有 体积 小 、 存 取 
速度 快 等 优点 ,因而 适合 作为 内 部 存储 器 使 用 。 按 工艺 不 同 可 将 半导体 RAM 分 为 双 极 型 
RAM 和 MOS 型 RAM 两 大 类 ,MOS 型 RAM 又 分 为 静态 RAM(Static RAM,SRAM) 和 
动态 RAM(Dynamic RAM,DRAMD 。 


7.2.1 基本 存储 元 件 


基本 存储 元 件 用 来 存储 一 位 二 进 制 信息 ,是 组 成 存储 器 的 最 基本 的 电路 。 下 面 介绍 两 
种 典型 的 分 别 用 于 SRAM 芯片 和 DRAM 芯片 的 存储 元 件 。 

1. 六 管 静态 MOS 管 存 储 元 件 

如 图 7. 3 所 示 ,其 中 T 和 T, 构成 触发 器 ,Ts .Ts 是 触发 器 的 负载 管 ,T,、T, 为 门 控 
管 。 使 用 这 6 个 MOS 管 即 可 组 成 存储 一 位 二 进 字 选 择 线 W 
制 信息 的 基本 存储 元 。 若 T。 管 导 通 , 则 Ti 管 一 位 线 D。 
定 截止 ,此 时 A 点 为 高 电 平 ,B 电 为 低 电 平 ,假定 
此 时 为 存 1 状态 ;反之 ( 当 Ti 管 导 通 时 ) 则 为 存 0 
状态 。 

1) 信息 的 保持 T, 

字 选 择 线 W 加 低 电 平 ,Ts 与 T, 截止 ,触发 器 | | 

| | 
2) 读 出 | 列 选择 线 





习 线 D 
pee | 位 线 D 
































与 外 界 隔离 ,保持 原 有 信息 不 变 。 





首先 在 两 个 位 线 上 加 高 电 平 , 当 字 选择 线 W 图 7.3 六 管 静态 存储 元 件 
上 加 高 电 平时 ,Ts 与 T 开启 。 若 原 存 1, 则 A 点 
为 高 电 平 ,Ts 导 通 ,所 以 有 电流 从 位 线 Di 经 T,、T, 管 流 到 地 ,从 而 在 位 线 D, 上 产生 一 个 
负 脉 冲 ,位 线 D 上 没有 负 脉 冲 。 反 之 , 若 原 存 0, 则 在 位 线 D 上 有 负 脉 冲 。 根 据 哪 条 位 线 
上 有 负 脉 冲 可 区 分 读 出 的 是 0 还 是 1。 

3) 写 入 

字 选 择 线 上 加 高 电 平 ,T; 与 T, 开启 。 若 要 写 1, 则 在 位 线 D; 上 加 低 电 平 ,使 B 点 电位 
下 降 ,T 管 截止 ,A 点 电位 上 升 ,使 T, 管 导 通 完成 写 1。 若 要 写 0, 则 在 D0 线 上 加 低 电 平 ， 
使 A 点 电位 下 降 ,结果 使 T, 管 截止 ,B 点 电位 上 升 ,T, 管 











数据 线 (位 线 ) 
导 通 ,完成 写 0。 
= 2. 单 管 动态 MOS 管 存储 元 件 
下 从 六 管 静态 RAM 电路 可 看 出 ,即使 存储 元 件 不 工作 ， 
二 也 有 电流 流 过 。 如 T, 导 通 ,Ts 截止 时 ,有 从 电源 经 Ti ~ 


Gs 二 -二 GT 一 地 的 电流 流动 。 反 之 , 则 有 从 电源 经 Ti -Ts 一 地 的 
J 二 电流 流动 ,因而 功 耗 较 大 。 

如 图 7.4 所 示 , 动 态 RAM 利用 MOS 管 的 栅 极 电容 
图 7.4 单 管 动态 存储 元 件 。 C. 来 保存 信息 ,在 信息 保持 状态 下 ,存储 元 件 中 没有 电流 
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流动 ,因而 大 大 降低 了 功 耗 。 

DRAM 芯片 中 一 般 采 用 图 7. 4 所 示 的 单 管 动态 单元 电路 ,其 中 工 管 为 字 选 门 控 管 , 读 
写 时 加 选 通 脉冲 使 其 导 通 。 

(1) 读 出 。 若 原 存 1, 则 Cs 上 电荷 通过 了 管 在 数据 线 上 产生 电流 。 反 之 ,车 原 存 0, 则 
无 电流 。 由 此 可 区 分 读 出 的 是 0 还 是 1。 因 为 读 出 时 Cs 上 电荷 放电 ,电位 下 降 , 所 以 是 破 
坏 性 读 出 , 读 后 应 有 重 写 操作 , 称 为 再生”。 由 于 Cs 不 可 能 很 大 ,所 以 Cs 在 数据 线 上 放电 
产生 的 电流 不 会 很 大 ,而 且 由 于 寄生 电容 Cu 的 存在 ,放电 时 Cs 上 的 电荷 是 在 Cs 和 Cs 之 间 
分 配 ,因此 , 读 出 电流 值 实际 上 非常 小 , 故 对 读 出 放大 器 的 要 求 较 高 。 

(2) 写 人 。 写 1 时 ,在 数据 线 上 加 高 电 平 ,经 T 管 对 Cs 充电 ; 写 0 则 在 数据 线 上 加 低 电 
平 ,Cs 充分 放电 而 使 其 上 无 电荷 。 

(3) 刷新 (refresh)。 由 于 MOS 管 栅 极 上 存储 的 电荷 会 缓慢 放电 ,超过 一 定时 间 , 就 会 
丢失 信息 。 因 此 必须 定时 给 栅 极 电容 充电 ,这 一 过 程 称 为 刷新 。 

3. 静态 存储 元 件 和 动态 存储 元 件 的 比较 

根据 以 上 对 两 种 典型 SRAM 元 件 和 DRAM 元 件 的 介绍 可 看 出 以 下 情况 。 

SRAM 存储 元 件 所 用 MOS 管 多 , 占 硅 片 面积 大 ,因而 功 耗 大 ,集成 度 低 ;但 因为 采用 一 
个 正 负 反馈 触发 器 电路 来 存储 信息 ,所 以 ,只 要 直流 供电 电源 一 直 加 在 电路 上 ,就 能 一 直 保 
持 记 忆 状 态 不 变 ,所 以 ,无 须 刷 新 ;也 不 会 因为 读 操作 而 使 状态 发 生 改变 , 故 无 须 读 后 再 生 ; 
特别 是 它 的 读 写 速度 快 , 其 存储 原理 可 看 作 是 对 带 时 钟 的 RS 触发 器 的 读 写 过程 。 由 于 
SRAM 价格 比较 昂贵 ,因而 ,适合 做 高 速 小 容量 的 半导体 存储 器 ,如 cache。 

DRAM 存储 元 件 所 用 MOS 管 少 , 占 硅 片 面积 小 ,因而 功 耗 小 ,集成 度 很 高 ;但 因为 采用 
电容 储存 电荷 来 存储 信息 ,会 发 生 漏电 现象 ,所 以 要 使 状态 保持 不 变 , 必 须 定时 刷新 ;因为 读 
操作 会 使 状态 发 生 改 变 , 故 需 读 后 再 生 ; 特 别 是 它 的 读 写 速度 相对 SRAM 元 件 要 慢 得 多 ,其 
存储 原理 可 看 作 是 对 电容 充 、 放 电 的 过 程 。 相 比 于 SRAM,DRAM 价格 较 低 ,因而 适合 做 慢 
速 大 容量 的 半导体 存储 器 ,如 主 存 。 


7.2.2 SRAM 芝 片 和 DRAM 共 片 


1. 存储 器 芯片 的 内 部 结构 

如 图 7. 5 所 示 ,存储 器 芯片 由 存储 体 、I/O 读 写 电路 、 地 址 译 码 和 控制 电路 等 部 分 组 成 。 

(1) 存储 体 ( 存 储 矩 阵 )。 存 储 体 是 存储 单元 的 集合 。 如 图 7. 5 所 示 ,4096 个 存储 单元 
被 排 成 64X64 的 存储 阵列 , 称 为 位 平面 ,这 样 8 个 位 平面 构成 4096 字 节 的 存储 体 。 由 X 选 
择 线 ( 行 选择 线 ) 和 Y 选择 线 ( 列 选择 线 ) 来 选择 所 需 单元 ,不 同位 平面 的 相同 行 、 列 上 的 位 
同时 被 读 出 或 写 入 。 

(2) 地 址 译 码 器 。 用 来 将 地 址 转换 为 译 码 输出 线 上 的 高 电 平 ,以 便 驱动 相应 的 读 写 电路 。 
地 址 译 码 有 一 维 译 码 和 二 维 译 码 两 种 方式 。 一 维 方式 也 称 为 线 选 法 或 单 译 码 法 ,适用 于 小 容 
量 的 静态 存储 器 ;二 维 方式 也 称 为 重合 法 或 双 译 码 法 ,适用 于 容量 较 大 的 动态 存储 器 。 

在 单 译 码 方式 下 ,只 有 一 个 行 译 码 器 ,同一 行 中 所 有 存储 单元 的 字 线 连 在 一 起 , 接 到 地 
址 译 码 器 的 输出 端 ,这 样 ,选中 一 行 中 的 各 单元 构成 一 个 字 , 被 同时 读 出 或 写 入 ,这 种 结构 的 
存储 器 芯片 被 称 为 字 片 式 芯片 。 

地 址 位 数 较 多 时 ,地 址 译 码 器 输出 线 太 多 。 比 如 ,z 一 12 时 单 译 码 结构 要 求 译 码 器 有 
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图 7.5 存储 器 芯片 结构 图 
4096 根 输出 线 ( 字 选择 线 ) ,因此 ,大 容量 的 动态 存储 器 芯片 不 宜 采 用 一 维 单 译 码 方式 的 字 
片 式 芯片 结构 。 
目前 ,动态 存储 芯片 大 多 采用 双 译 码 结 构 。 地 址 译 码 器 分 为 X 和 YY 方向 两 个 译 码 器 。 
图 7.5 采 用 的 就 是 二 维 双 译 码 结构 ,其 存储 阵列 组 织 如 图 7.6 所 示 。 
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图 7.6 二 维 双 译 码 结构 (位 片 式 芯片 ) 


7.6 中 的 存储 阵列 有 4096 个 单元 ,需要 12 根 地 址 线 :Au 一 An ,其 中 Au 一 As 送 至 X 
译 码 器 ,有 64 条 译 码 输出 线 , 各 选择 一 行 单元 ;As 一 Au 送 至 Y 译 码 器 , 它 也 有 64 条 译 码 输 
出 线 , 分 别 控制 一 列 单元 的 位 线 控制 门 。 假 如 输入 的 12 位 地 址 为 An Al … Au 一 
000000000001 时 , 则 X 译 码 器 的 第 2 根 译 码 输出 线 (xi ) 为 高 电 平 ,于 是 与 它 相连 的 64 个 存 
储 单元 的 字 选 择 W 线 为 高 电 平 。Y 译 码 器 的 第 1 根 译 码 输 出 线 (yo ) 为 高 电 平 ,打开 第 一 列 
的 位 线 控制 门 。 在 X、Y 译 码 的 联合 作用 下 ,存储 矩阵 中 (1,0) 单 元 被 选中 。 

在 选中 的 行 和 列 交叉 点 上 的 单元 只 有 一 位 ,因此 ,采用 二 维 双 译 码 结构 的 存储 器 芯片 被 
称 为 位 片 式 芯片 。 有 些 芯片 的 存储 阵列 采用 三 维 结构 ,用 多 个 位 平面 构成 存储 阵列 ,不 同位 
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平面 在 同一 行 和 列 交叉 点 上 的 多 位 构成 一 个 存储 字 ,被 同时 读 出 或 写 人 。 

(3) 驱动 器 :在 双 译 码 结构 中 ,一 条 入 方向 的 选择 线 要 控制 在 其 上 的 各 个 存储 单元 的 字 
选择 线 , 所 以 负载 较 大 ,因此 需要 在 译 码 器 输出 后 加 驱动 器 。 

(4) 1/O 控制 电路 。 用 以 控制 被 选中 的 单元 的 读 出 或 写 人 ,具有 放大 信息 的 作用 。 

(5) 片 选 控制 信号 。 单 个 芯片 容量 太 小 ,往往 满足 不 了 计算 机 对 存储 器 容量 的 要 求 , 因 
此 需 将 一 定数 量 的 芯片 按 特定 方式 连接 成 一 个 完整 的 存储 器 。 在 访问 某 个 字 时 ,必须 “ 选 
中 ”该 字 所 在 芯片 ,而 其 他 芯片 不 被 选中”。 因 而 芯片 上 除了 地 址 线 和 数据 线 外 ,还 应 有 片 
选 控制 信号 。 在 地 址 选择 时 ,由 芯片 外 的 地 址 译 码 器 的 输入 信号 以 及 控制 信号 (如 "* 访 存 控 
制 ?信号 ) 来 产生 片 选 控制 信号 ,选中 要 访问 的 存储 字 所 在 的 芯片 。 

(6) 读 / 写 控制 信号 。 根 据 CPU 给 出 的 是 读 命令 还 是 写 命令 ,控制 被 选中 的 存储 单元 
进行 读 或 写 。 

图 7.7 是 典型 的 4MX4 位 DRAM 芯片 示意 图 。DRAM 芯片 容量 较 大 ,因而 地 址 位 数 
较 多 ,为 了 减少 芯片 的 地 址 引 脚 数 , 从 而 减 小 体积 ,大 多 采用 地 址 引 脚 复 用 技术 , 行 地 址 和 列 
地 址 通过 相同 的 管 脚 分 先后 两 次 输入 ,这 样 地址 引 脚 数 可 减少 一 半 。 
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图 7.7 4MX4 位 DRAM 芯 片 


图 7.7(a) 给 出 了 芯片 的 引 脚 ,共有 11 根 地 址 引 脚 线 Au 一 Ai ,在 行 选 通 信号 RAS 和 列 
选 通信 号 CAS 的 控制 下 分 时 传送 行列 地 址 ,有 4 根 数据 引 脚 线 D, 一 Di ,因此 ,每 个 芯片 同 
时 读 出 4 位 数据 ,WE 为 读 写 控制 引 脚 , 低 电 平时 为 写 操作 ;OE 为 输出 使 能 驱动 引 脚 , 低 电 平 
有 效 ,高 电 平时 断 开 输出 。 

图 7.7(b) 给 出 了 芯片 内 部 的 逻辑 结构 图 ,芯片 存储 阵列 采用 三 维 结构 ,芯片 容量 为 
2048X2048X4 位 ,因此 , 行 地 址 和 列 地 址 各 11 位 ,有 4 个 位 平面 ,在 每 个 行 、 列 交叉 处 的 
4 个 位 平面 数据 同时 进行 读 写 。 行 地 址 缓冲 器 和 刷新 计数 器 通过 一 个 多 路 选择 器 将 选择 的 
行 地 址 输出 到 行 译 码 器 ,刷新 计数 器 的 位 数 也 是 11 位 ,一 次 刷新 相当 于 对 一 行 数据 进行 一 
次 读 操 作 ,每 次 读 后 需 再 生 。 
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2. DRAM 芯片 的 刷新 

DRAM 芯片 的 存储 阵列 中 所 有 存储 电容 必须 周期 性 地 重新 充电 ,这 一 过 程 称 为 刷新 。 刷 
新 可 以 采用 " 读 出 ”的 方法 进行 ,根据 读 出 内 容 对 相应 单元 进行 “ 重 写 ”, 即 读 后 再 生 。 刷 新 时 只 
给 各 芯片 送行 地 址 和 RAS 信 号 ,这 样 芯片 中 一 行 的 所 有 元 素 被 选中 并 进行 “ 读 出 操作。 因此 ， 
刷新 操作 按 行进 行 , 一 次 可 刷新 一 行 所 有 元 素 。 对 于 由 上 述 图 7. 7 中 芯片 组 成 的 存储 器 ,其 存 
储 体 为 2048X2048X4 位 结构 ,所 以 ,只 要 2048 次 刷新 操作 就 可 将 整个 存储 器 刷新 一 遍 。 

刷新 不 需要 外 部 提供 行 地 址 信息 ,这 是 一 个 内 部 的 自动 操作 。DRAM 芯片 内 部 有 一 个 
行 地 址 生成 器 (也 称 刷 新 计数 器 ) ,由 它 自动 生成 行 地 址 。 由 于 刷新 是 针对 一 行 中 所 有 存储 
单元 进行 ,所 以 无 须 进 行列 寻 址 。 

刷新 周期 定义 为 上 次 对 整个 存储 器 刷新 结束 时 作为 开始 点 到 下 次 对 整个 存储 器 全 部 刷 
新 一 遍 为 止 的 时 间 间 隔 ,也 就 是 对 某 一 个 特定 的 行进 行 相 邻 两 次 刷新 的 时 间 间 隔 。 应 该 隔 
多 长 时 间 重 复 一 次 刷新 呢 ? 目前 公认 的 标准 是 存储 体 中 电容 的 数据 有 效 保存 期 的 上 限 
64ms, 也 就 是 说 每 一 行 的 刷新 周期 是 64ms, 但 有 些 器 件 也 不 一 定 是 64ms。 

有 3 种 刷新 方式 : 集中 分散 和 异步 。 

(1) 集中 刷新 。 在 整个 刷新 间隔 内 ,前 一 段 时 间 用 于 正常 的 读 写 操 作 。 而 在 后 一 段 时 
间 停 止 读 写 操作 ,集中 逐 行进 行 刷 新 。 因 为 刷新 操作 同时 对 所 有 芯片 进行 ,所 以 刷新 期 间 整 
个 存储 器 都 不 能 进行 正常 的 读 写 操作 。 由 于 集中 刷新 时 间 较 长 ,因此 处 于 这 种 非 正 常 工作 
状态 的 时 间 较 长 , 极 大 影响 系统 执行 效率 ,所 以 很 少 采用 集中 式 刷 新 方式 。 

(2) 分 散 刷新 。 将 一 个 存储 周期 分 为 两 段 ,前 一 段 时 间 用 于 正常 读 写 操作 ,后 一 段 时 间 
用 于 刷新 操作 。 这 样 ,不 存在 死 时 间 区 ,但 是 每 个 存储 周期 的 时 间 被 加 长 ,所 以 这 种 方式 也 
很 少 使 用 。 

(3) 异步 刷新 。 结 合 上 述 两 种 方式 ,将 一 个 刷新 周期 分 配给 所 有 行 , 使 得 在 一 个 刷新 周 
期 内 每 一 行 都 至 少 被 刷新 一 次 , 且 仅 被 刷新 一 次 。 若 刷新 周期 为 64ms, 则 相 邻 两 行 之 间 的 
刷新 间隔 就 是 64ms/ 行 数 。 例 如 ,对 于 规格 是 4096 行 、 刷 新 周期 为 64ms 的 DRAM 存储 
器 ,其 相 邻 两 行 的 刷新 间隔 为 15. 625ws,8192 行 时 则 为 7. 8125ps。 这 种 方式 比 前 两 种 效率 
高 ,目前 用 得 较 多 。 

3. DRAM 芯片 读 写 周期 

图 7.8 是 DRAM 芯片 读 写 周期 时 序 示 意图 。 

读 周期 中 ,为 使 芯片 能 正确 地 接收 行 、 列 地 址 并 实现 读 操作 ,各 信号 的 时 间 关系 应 符合 
下 面 的 要 求 。 

(1) 行 地 址 必须 在 RAS 信 号 有 效 之 前 送 到 芯片 的 地 址 输入 端 。 

(2) CAS 信 号 应 滞后 RAS 一 段 时 间 ,并 滞后 列 地 址 送 到 芯片 地 址 输入 端的 时 间 。 

(3) RAS、CAS 的 时 延 分 别 为 如 ss 和 tcas ,它们 应 有 足够 的 宽度 。 

(4) WE 信号 为 高 电 平 ,并 在 CAS 有 效 之 前 建立 。 

(5) 每 次 读 后 要 再 生 , 即 重新 写 人 一 次 。 

在 写 周期 中 ,RAS 与 CAS 之 间 的 关系 以 及 与 地 址 信息 间 的 关系 和 读 周 期 相同 ,但 还 有 两 
点 不 同 。 

(1) WE 信号 为 低 电 平 ,并 在 CAS 信 号 有 效 之 前 建立 。 

(2) 写 数据 必须 在 CAS 有 效 之 前 出 现在 Di 端 。 
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图 7.8 DRAM 芯片 读 写 周期 时 序 图 


7.2.3 SDRAM 臣 片 技术 


目前 主 存 常 用 的 是 基于 SDRAM(Synchronous DRAM) 芯片 技术 的 内 存 条 ,包括 DDR 
SDRAM、DDR2 SDRAM 和 DDR3 SDRAM 等 。SDRAM 是 一 种 与 当年 Intel 公司 推出 的 
芯片 组 中 北桥 芯片 的 前 端 总 线 同 步 运行 的 DRAM 芯片 ,因此 , 称 为 同步 DRAM。 

1. SDRAM 芯片 技术 

SDRAM 的 工作 方式 与 传统 的 DRAM 有 很 大 不 同 。 传 统 DRAM 与 CPU 之 间 采 用 异 
步 方 式 交换 数据 ,CPU 发 出 地 址 和 控制 信号 后 ,经 过 一 段 延迟 时 间 ,数据 才 读 出 或 写 入 。 在 
这 段 时 间 里 ,CPU 不 断 采 样 DRAM 的 完成 信号 ,在 没有 完成 之 前 ,CPU 插入 等 待 状态 而 不 
能 做 其 他 工作 。 而 SDRAM 芯片 则 不 同 ,其 读 写 受 系统 时 钟 ( 即 前 端 总 线 时 钟 CLK) 控 制 ， 
因此 与 CPU 之 间 采 用 同步 方式 交换 数据 。 它 将 CPU 或 其 他 主 设备 发 出 的 地 址 和 控制 信 
息 锁 存 起 来 ,经 过 确定 的 几 个 时 钟 周期 后 给 出 响应 。 因 此 , 主 设备 在 这 段 时 间 内 可 以 安全 地 

SDRAM 的 每 一 步 操作 都 在 外 部 系统 时 钟 CLK 的 控制 下 进行 ,支持 突 发 (burst) 传输 方 
式 。 只 要 在 第 一 次 存 取 时 给 出 首 地 址 ,以 后 按 地 址 顺序 读 写 即 可 ,而 不 再 需要 地 址 建立 时 间 和 
行列 预 充 电 时 间 ,就 能 快速 连续 地 从 行 缓冲 器 (row buffer) 中 输出 一 连 串 数 据 。 行 缓冲 器 用 
来 缓存 指定 行 中 每 一 行 的 数据 ,通常 用 SRAM 元 件 实现 。 内 部 的 工作 方式 寄存 器 (也 称 模式 
寄存 器 ) 可 用 来 设置 传送 数据 的 长 度 以 及 从 收 到 读 命令 (与 CAS 信号 同时 发 出 ) 到 开始 传送 数 
据 的 延迟 时 间 等 ,前 者 称 为 突 发 长 度 (burst length,BL) ,后 者 称 为 CAS 潜伏 期 (CAS latency， 
CL)。 根 据 所 设 定 的 BL 和 CL,CPU 可 以 确定 何 时 开始 从 总 线 上 取 数 以 及 连续 取 多 少 个 数据 。 
在 开始 的 第 一 个 数据 读 出 后 ,同一 行 的 所 有 数据 都 被 送 到 行 缓冲 器 中 ,因此 ,以 后 每 个 时 钟 可 
从 SDRAM 读 取 一 个 数据 ,并 在 下 一 个 时 钟 内 通过 总 线 传送 到 CPU。 

基于 SDRAM 技术 的 芯片 的 工作 过 程 大 致 如 下 。 

(1) 在 CLK 时 钟 上 升 沿 片 选 信号 (CS) 和 行 地 址 选 通信 号 (了 AS) 有 效 。 

(2) 经 过 一 段 延 时 trcp (RAS to CAS delay) , 列 选 通信 号 CAS 有 效 , 并 同时 发 出 读 或 写 
命令 ,此 时 ,行列 地 址 被 确定 ,已 选中 具体 的 存储 单元 。 
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(3) 对 于 读 操作 ,再 经 过 一 个 CAS 潜伏 期 后 ,输出 数据 开始 有 效 , 其 后 的 每 个 时 钟 都 有 
一 个 或 多 个 数据 连续 从 总 线 上 传 出 ,直到 完成 突 发 长 度 BL 指定 的 所 有 数据 的 传送 。 对 于 
写 操 作 , 则 没有 CL 延 时 而 直接 开始 写 人 。 由 于 只 有 读 操作 才 有 CL, 所 以 CL 又 被 称 为 读 取 
潜伏 期 (Read Latency, RL)。trcv 和 CL 都 以 时 钟 周 期 Ter 为 单位 ,例如 ,对 于 PC100 
SDRAM 来 说 , 当 Tax 为 10ns,CL 为 2 时 , 则 CAS 潜伏 期 延 时 为 20ns。BL 可 用 的 选项 为 
1、2、4.8 等 , 当 BL 为 1 时, 则 是 非 突 发 传输 方式 。 

2. DDR SDRAM 芯片 技术 

DDR(Double Data Rate) SDRAM 是 对 标准 SDRAM 的 改进 设计 ,通过 芯片 内 部 IO 
缓冲 中 数据 的 两 位 预 取 功 能 ,并 利用 存储 器 总 线 上 时 钟 信 号 的 上 升 沿 与 下 降 沿 进行 两 次 传 
送 ,以 实现 一 个 时 钟 内 传送 两 次 数据 的 功能 。 例 如 ,采用 DDR SDRAM 技术 的 PC3200 
(DDR400) 存 储 芯片 内 CLK 时 钟 的 频率 为 200MHz, 意 味 着 存储 器 总 线 上 的 时 钟 频率 也 为 
200MHz, 利 用 存储 芯片 内 部 的 两 位 预 取 技术 ,使 得 一 个 时 钟 内 有 两 个 数据 被 取 到 1/O 缓冲 
中 。 因 为 存储 器 总 线 在 每 个 时 钟 内 可 以 传送 两 次 数据 , 而 存储 器 总 线 中 的 数据 线 位 宽 为 
64, 即 每 次 传送 64 位 ,因而 存储 器 总 线 上 数据 的 最 大 传输 率 ( 即 带宽 ) 为 200MHzX2X 
64/8=3. 2GB/s。 

3. DDR2 SDRAM 芯片 技术 

DDR2 SDRAM 内 存 条 采用 与 DDR 类 似 的 技术 ,如 图 7.9 所 示 , 利 用 芯片 内 部 的 1/O 
缓冲 (1/O buffer) 可 以 进行 4 位 预 取 。 例 如 ,采用 
DDR2 SDRAM 技术 的 PC2-3200(DDR2-400) 存 储 IO 缓冲 
芯片 内 部 CLK 时 钟 的 频率 为 200MHz, 意 味 着 存 | |“ 对 ”上 as 
储 器 总 线 上 的 时 钟 频率 应 为 400MHz, 利 用 存储 芯 
片 内 部 的 4 位 预 取 技 术 , 使 得 一 个 时 钟 内 有 4 个 数 。 二 
据 被 取 到 1/0 绥 冲 中 ,存储 器 总 线 在 每 个 时 钟 内 传 。 ”SORA 窟 片 的 数据 更 
送 两 次 数据 ,车 每 次 传送 64 位 , 则 存储 器 总 线 的 最 
大 数据 传输 率 ( 即 带宽 ) 为 200MHzX4X64/8 王 400MHzX2X64/8 一 6.4GB/s。 

4. DDR3 SDRAM 芯片 技术 

DDR3 SDRAM 芯片 内 部 I/O 缓冲 可 以 进行 8 位 预 取 。 如 果 存 储 芯片 内 部 CLK 时 钟 
的 频率 为 200MHz, 意 味 着 存储 器 总 线 上 的 时 钟 频率 应 为 800MHz, 存 储 器 总 线 在 每 个 时 钟 
内 可 传送 两 次 数据 , 若 每 次 传送 64 位 , 则 对 应 存储 器 总 线 的 最 大 数据 传输 率 ( 即 带宽 ) 为 
200MHzX8X64/8=800MHzX2X64/8=12. 8GB/s。 


7.3 存储 器 芯片 的 扩展 及 其 与 CPU 的 连接 


7.3.1 内 存 条 和 内 存 条 插 模 


主 存 与 CPU 之 间 的 连接 如 图 7. 10 所 示 。CPU 通过 其 芯片 内 的 总 线 接 口 部 件 ( 即 总 线 
控制 逻辑 ) 与 系统 总 线 0 相 连 ,然后 再 通过 总 线 之 间 的 1/O 桥接 器 、 存 储 器 总 线 连接 到 主 存 。 
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@@ 国内 教材 中 ,系统 总 线 通常 是 对 连接 CPU、 存 储 器 和 各 种 1/O 模块 等 主要 部 件 的 总 线 的 统称 ,而 Intel 公司 推出 
的 芯片 组 中 ,对 系统 总 线 赋予 了 特定 的 含义 , 特 指 CPU 连接 到 北桥 芯片 的 总 线 , 也 称 为 处 理 器 总 线 或 前 端 总 线 (Front 
Side Bus,FSB) 。 
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图 7.10 主 存 与 CPU 的 连接 











总 线 是 连接 其 上 的 各 部 件 共 享 的 传输 介质 ,通常 总 线 由 控制 线 、 数 据 线 和 地 址 线 构成 。 
如 图 7. 10 所 示 ,计算 机 中 各 部 件 之 间 通 过 总 线 相连 ,例如 ,CPU 通过 处 理 器 总 线 和 存储 器 
总 线 与 主 存 相连 。 在 CPU 和 主 存 之 间 交 换 信息 时 ,CPU 通过 总 线 接口 部 件 把 地 址 信息 和 
总 线 控制 信息 分 别 送 到 地 址 线 和 控制 线 ,CPU 和 主 存 之 间 交 换 的 数据 则 通过 数据 线 传输 ， 


每 一 根 数据 线 传送 一 位 数据 ,因而 数据 线 的 条 数 就 是 数据 线 位 宽 。 


受 集成 度 和 功 耗 等 因素 的 限制 ,单个 芯片 的 容量 不 可 能 很 大 ,所 以 往往 通过 存储 器 芯片 
的 扩展 技术 ,将 多 个 芯片 做 在 一 个 主 存 模块 ( 即 内 存 条 ) 上 ,然后 由 多 个 主 存 模块 以 及 主板 或 
扩充 板 上 的 RAM 芯片 和 ROM 芯片 组 成 一 台 计算 机 所 需 的 主 存 空间 ,再 通过 系统 总 线 和 


CPU 相连 。 


图 7.11(a) 是 内 存 条 和 内 存 条 插 模 (slot) 示 意图 ,图 7. 11(b) 是 存储 控制 器 (memory 
controller) ,存储 器 总 线 、 内 存 条 和 DRAM 芯片 之 间 的 连接 关系 示意 图 。 





存 条 和 内 存 条 插 槽 
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(b) 存储 控制 器 、 存 储 器 总 线 、 内 





存储 器 总 线 


存 条 和 DRAM 芯片 之 间 的 连接 


图 7.11 DRAM 芯片 在 系统 中 的 位 置 及 其 连接 关系 


如 图 7. 11(b) 所 示 ,内 存 条 插 槽 就 是 存储 器 总 线 , 内 存 条 中 的 信息 通过 内 存 条 的 引 脚 ， 
再 通过 插 槽 内 的 引线 连接 到 主板 上 ,通过 主板 上 的 导线 连接 到 北桥 芯片 或 CPU 芯片 。 现 
在 的 计算 机 中 可 以 有 多 条 存储 器 总 线 同 时 进行 数据 传输 ,支持 两 条 总 线 同 时 进行 传输 的 内 
存 条 插 槽 为 双 通 道内 存 插 槽 ,还 有 三 通道 .四 通道 内 存 插 模 ,其 总 线 的 传输 带宽 可 以 分 别提 
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高 到 单 通道 的 两 售 、 三 倍 和 四 倍 。 例 如 ,图 7. 11(a) 所 示 的 内 存 条 插 槽 支持 双 通 道内 存 条 ， 
共 可 插入 4 个 内 存 条 ,其 中 相同 颜色 的 插 槽 可 以 并 行 传输 ,因此 ,对 于 图 7. 11(a) 所 示 的 内 
存 条 插 槽 情况 ,如 果 只 有 两 个 内 存 条 , 则 应 该 插 在 两 个 相同 颜色 的 内 存 条 插 模 上 ,其 传输 带 
宽 可 以 增 大 一 倍 。 


7.3.2 存储 器 芯片 的 扩展 


由 若干 个 存储 器 芯片 可 构成 一 个 内 存 条 ,此 时 ,需要 在 字 方向 和 位 方向 上 进行 扩展 。 

1. 位 扩展 

用 若干 片 位 数 较 少 的 存储 器 芯片 构成 给 定 字 长 的 内 存 条 时 ,需要 进行 位 扩展 。 例 如 ,用 
8 片 4096X1 位 的 芯片 构成 4KX8 位 的 内 存 条 ,需要 在 位 方向 上 扩展 8 倍 , 而 字 方 向 上 无 需 
扩展 。 位 扩展 时 ,各 芯片 上 的 地 址 线 及 读 写 控制 线 对 应 相 接 ,而 数据 线 单 独 引出 。 

2. 字 扩 展 

字 扩 展 是 容量 的 扩充 ,位 数 不 变 。 例 如 ,用 16K X8 位 的 存储 芯片 在 字 方向 上 扩展 4 
倍 , 可 构成 一 个 64KX8 位 的 内 存 条 。 字 扩展 时 ,芯片 的 地 址 线 、. 读 写 控制 线 等 引 脚 对 应 相 
接 , 片 选 信号 则 分 别 与 外 部 译 码 器 的 各 个 译 码 输出 端 相 连 。 

3. 字 、 位 同时 扩展 

当 芯 片 在 容量 和 位 数 都 不 满足 存储 器 要 求 的 情况 下 ,需要 对 字 和 位 同时 扩展 。 例 如 ,用 
16KX4 位 的 存储 芯片 在 字 方 向 上 扩展 4 倍 ,位 方向 上 扩展 2 倍 , 可 构成 一 个 64KX8 位 的 
内 存 条 。 

图 7.12 给 出 了 用 8 个 16MX8 位 的 DRAM 芯片 扩展 构成 一 个 128MB 内 存 条 的 示意 
图 。 每 片 DRAM 芯片 中 有 一 个 4096 X4096X8 位 的 存储 阵列 ,所 以 , 行 地 址 和 列 地 址 各 
12 位 ,有 8 个 位 平面 ,在 每 个 行 、 列 交叉 处 的 8 个 位 平面 数据 同时 进行 读 写 ,所 以 一 个 芯片 
( 行 地 址 坟 列 地 址 让 
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图 7.12 DRAM 芯片 的 扩展 
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每 次 读 / 写 8 位 。 芯 片 中 每 1 行 有 4096 列 ,每 列 有 8 位 。 选 中 某 一 行 并 读 出 到 行 缓冲 后 ,再 
由 列 地 址 选择 其 中 的 一 列 (8 个 二 进位 ) 送 到 存储 控制 器 ,组 合成 需要 的 传输 宽度 (如 64 
位 ) ,再 通过 存储 器 总 线 进行 传输 。 


7.4 半导体 只 读 存储 器 和 Flash 存储 器 


7.4.1 半导体 只 读 存 储 器 


半导体 只 读 存 储 器 根据 只 读 存 储 器 的 工艺 可 分 为 ROM、PROM、EPROM 和 EEPROM 
(E:*PROM) 等 类 型 。 

1. 掩 膜 只 读 存储 器 

掩 膜 只 读 存储 器 (Mask ROM, MROM) 中 存储 的 信息 由 生产 厂家 在 掩 膜 工艺 过 程 中 
“ 写 和 人”, 用 户 不 能 修改 。MROM 有 双 极 型 和 MOS 型 两 种 。MROM 存储 内 容 固定 ,所 以 可 
靠 性 高 ;但 其 灵活 性 差 ,生产 周期 长 ,用 户 和 厂家 间 依 赖 性 大 ,只 适合 定型 批量 生产 。 

2. 可 编程 只 读 存 储 器 

可 编程 只 读 存储 器 (Programmable ROM,PROM) 芯 片 出 厂 时 内 容 全 部 为 0( 半 成 品 )， 
用 户 可 用 专门 的 PROM 写 人 器 将 信息 写 入 ,所 以 称 为 可 编程 型 ROM, 但 写 和 不可逆, 某 位 
写 入 1 后 ,就 不 能 再 变 为 0, 因 此 称 为 一 次 编程 型 只 读 存 储 器 。 

PROM 有 两 种 工艺 : 熔 丝 型 和 反 向 二 极 管 型 。 熔 丝 型 较 常用 ,在 行列 交点 处 连接 一 段 
熔 丝 , 存 人 0。 若 该 位 需 写 人 1, 则 让 它 通 过 较 大 电流 ,使 熔 丝 烧 断 。 反 向 二 极 管 型 在 行 、 列 
交点 处 有 一 对 反 向 的 二 极 管 , 因 反 向 而 不 导 通 , 存 人 0。 若 该 位 需 写 入 1, 则 在 相应 行 、 列 之 
间 加 较 高 电压 ,将 其 中 反 向 二 极 管 永久 性 击 穿 , 留 正 向 可 导 通 的 一 只 二 极 管 。 反 向 二 极 管 型 
也 被 称 为 P-N 结 破坏 型 。 

3. 可 擦 除 可 编程 只 读 存 储 器 

可 擦 除 可 编程 只 读 存储 器 (Erasable Programmable ROM ,EPROM) 人 允许 用 户 通 过 某 种 
编程 器 向 ROM 芯片 中 写 入 信息 ,并 可 擦 除 所 有 信息 后 重新 写 信 。 可 反复 擦 除 一 写 人 多 次 。 
一 般 把 EPROM 芯片 上 的 石英 窗口 对 着 紫外 线 灯 (12mW/cm? 规格 ) ,距离 3cm 和 远 ,照射 
8 一 20 分 钟 , 即 可 抹 除 芯 片上 的 全 部 信息 。 

EPROM 比 MROM 和 PROM 灵活 与 实用 ,但 采用 MOS 工艺 ,速度 比较 慢 。 探 除 时 ， 
芯片 中 所 有 信息 都 会 消失 ,不 灵活 ,因而 又 引入 了 一 种 电 可 擦 除 的 EPROM。 

4. 电 擦 除 电 改写 只 读 存储 器 

电 擦 除 电 改写 只 读 存 储 器 (Electrically Erasable Programmable ROM, EEPROM 或 
E* PROM)。 这 种 存储 器 在 读数 据 的 方式 上 与 EPROM 完全 一 样 ,但 它 有 一 个 明显 优点 , 即 
可 用 电 来 擦 除 和 重 编 程 ,因此 ,可 以 选择 只 删除 个 别 字 ,而 不 像 EPROM 那样 每 次 都 要 抹 除 
芯片 上 的 全 部 信息 ,这 给 现场 重 编程 带 来 极 大 的 方便 。 不 过 EPROM 在 每 次 写 人 操作 时 先 
执行 一 个 自动 擦 除 ,因此 比 RAM 的 写 操作 慢 得 多 。 一 般 EPROM 可 进行 数 千 次 控 除 ,在 
不 受 干扰 时 ,所 存放 的 数据 至 少 可 维持 10 年 ,多 则 达 20 多 年 。 


7.4.2 半导体 Flash 存储 器 
Flash 存储 器 也 称 为 闪存 ,是 高 密度 非 易 失 性 读 写 存储 器 , 它 兼 有 RAM 和 ROM 的 优 
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点 ,而 且 功 耗 低 、 集 成 度 高 ,不 需 后 备 电源 。 这 种 器 件 沿用 了 EPROM 的 简单 结构 和 浮 栅 / 
热电 子 注入 的 编程 写 人 方式 ,又 兼备 已 PROM 的 可 擦 除 特点 ,可 在 计算 机 内 进行 擦 除 和 编 意 


程 写 人 ,因此 又 称 为 快 擦 型 电 可 氛 除 重 编程 ROM。 目 。 当 % 机 pp  。 泽 宣 
前 被 广泛 使 用 的 U 盘 和 存储 卡 等 都 属于 Flash 存储 器 。 jg 机、 \ 
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的 。 如 图 7. 13 所 示 是 一 个 Flash 存储 元 ,每 个 存储 元 
由 单个 MOS 管 组 成 ,包括 漏 极 D、 源 极 S、 控 制 栅 和 浮 
空 机 。 当 控制 机 加 上 足够 的 正 电 压 时 , 浮 空 机 将 储存 大 
量 电 子 , 即 带 有 许多 负电 荷 ,可 将 存储 元 的 这 种 状态 定 
义 为 “0”; 当 控制 机 不 加 正 电 压 , 则 浮 空 机 少 带 或 不 带 负 (a) “0" 状态 (b) “1” 状 态 
电荷 ,将 这 种 状态 定义 为 “1”。 图 7.13 ”Flash 存储 元 

2. Flash 存储 器 的 基本 操作 

闪存 有 3 种 基本 操作 : 编程 (充电 ) 、 擦 除 ( 放 电 )、 读 取 。 

编程 操作 : 最 初 所 有 存储 元 都 是 “1” 状 态 , 通 过 “编程 ”, 在 需要 改写 为 “0” 的 存储 元 的 控 
制 栅 加 上 一 个 正 电 压 Vs ,如 图 7. 14(a) 所 示 。 一 旦 某 存储 元 被 编程 , 则 存储 的 数据 可 保持 
100 年 而 无 须 外 电源 。 

擦 除 操作 : 采用 电 擦 除 。 即 在 所 有 存储 元 的 源 极 S 加 正 电 压 Ve, 使 浮 空 机 中 的 电子 被 
吸收 掉 , 从 而 使 所 有 存储 元 都 变 成 “1” 状 态 , 如 图 7.14(b) 所 示 。 因 此 , 写 的 过 程 实际 上 是 先 
全 部 擦 除 ,使 所 有 存储 元 都 变 成 “1” 状 态 后 再 在 需要 的 地 方 改写 为 “0”。 即 , 先 全 部 放电 ,再 
在 写 0 的 地 方 充电 。 

读 取 操 作 : 在 控制 栅 加 上 正 电 压 Vr, 车 原 存 为 “0”, 则 读 出 电路 检测 不 到 电流 ,如 
图 7.15(a) 所 示 ; 若 原 存 为 “1”, 则 浮 空 栅 不 带 负 电荷 ,控制 栅 上 的 正 电压 足以 开启 晶体 管 ， 
电源 V 提供 从 漏 极 D 到 源 极 S 的 电流 , 读 出 电路 检测 到 电流 ,如 图 7. 15(b) 所 示 。 
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7.14 Flash 存储 元 的 写 和 人 图 7.15 Flash 存储 元 的 读 出 


从 上 述 基 本 原理 可 以 看 出 ,Flash 存储 器 的 读 操作 速度 和 写 操作 速度 相差 很 大 ,其 
读 取 速度 与 半导体 RAM 芯片 相当 ,而 写 数据 ( 快 控 一 编程 ) 的 速度 则 与 硬 磁 盘存 储 器 
相当 。 
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7.5 并 行 存储 器 结构 技术 


由 于 CPU 和 主 存 所 使 用 的 半导体 器 件 工艺 不 同 ,两 者 速度 上 的 差距 导致 快速 的 CPU 
等 待 慢 速 的 主 存储 器 ,为 此 需要 想 办 法 提高 主 存 的 速度 。 

改善 主 存 速度 的 方法 可 从 3 个 方面 考虑 。 

(1) 提高 DRAM 芯片 本 身 的 速度 ,如 前 述 的 各 种 基于 SDRAM 的 技术 。 

(2) 采用 并 行 结构 技术 ,本 节 介 绍 的 双 口 存储 器 和 多 模块 存储 器 就 是 利用 时 间 并 行 和 
空间 并 行 性 在 结构 上 进行 优化 的 技术 。 

(3) 在 CPU 和 主 存 之 间 增 加 高 速 缓冲 存储 器 。 这 是 7. 6 节 介 绍 的 内 容 。 


7.5.1 双 口 存储 器 


双 口 存储 器 在 一 个 存储 器 中 提供 两 组 独立 的 读 写 控制 电路 和 两 个 读 写 端口 ,因而 可 以 
同时 提供 两 个 数据 的 并 行 读 写 ,是 一 种 空间 并 行 技术 。 

图 7.16 是 一 个 双 口 存储 器 逻辑 结构 示意 图 。 每 个 读 写 口 都 有 一 套 独立 的 地 址 缓存 器 
和 译 码 电路 ,两 套 电路 并 行 独立 工作 。 当 A、B 两 个 端口 地 址 不 相同 时 ,可 以 向 存储 体 一 次 
读 写 两 个 单元 的 内 容 ; 当 A、B 两 个 端口 地 址 相同 时 ,发 生 冲 突 , 可 按照 特定 的 优先 顺序 选择 
其 中 一 个 端口 进行 读 写 。 
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图 7.16 双 口 存储 器 逻辑 结构 


通常 用 双 口 RAM 作为 通用 寄存 器 组 GRS 或 指令 预 取 部 件 ,也 有 一 些 计算 机 把 双 口 
RAM 设计 成 一 个 端口 面向 CPU, 另 一 个 端口 面向 输入 输出 (如 IO 处 理 器 或 DMA 设备 )。 
也 可 以 将 其 用 在 多 机 系统 中 ,实现 双 口 或 多 口 存储 器 与 多 CPU 之 间 的 信息 交换 。 


7.5.2 多 模块 存储 器 


多 模块 存储 器 是 一 种 空间 并 行 技术 ,利用 多 个 结构 完全 相同 的 存储 模块 的 并 行 工 作 来 
提高 存储 器 的 吞吐 率 。 每 个 存储 模块 具有 相同 的 容量 和 存 取 速 度 , 并 各 自 具 有 独立 的 地 址 
寄存 器 MAR 数据 寄存 器 MDR、 地 址 译 码 器 、 驱 动 电 路 和 读 写 电路 ,因此 ,它们 能 独立 并 行 
正 作 。 

根据 不 同 的 编 址 方式 ,多 模块 存储 器 分 为 连续 编 址 和 交叉 编 址 两 种 结构 。 
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1. 连续 编 址 方式 

连续 编 址 的 多 模块 主 存储 器 中 , 主 存 地 址 的 高 位 表示 模块 号 (或 体 号 ) ,低位 表示 模块 内 
地 址 (或 体内 地 址 ), 因 此 ,也 称 为 按 高 位 地 址 划分 方式 ,地 址 在 模块 内 连续 。 图 7. 17 是 连续 
编 址 方式 示意 图 ,存储 器 共有 4 个 模块 Me 一 Ms ,每 个 模块 有 个 单元 ,Mo 的 地 址 范围 为 
0~n 一 1,…,M; 的 地 址 范围 为 3 一 42 一 1。 连 续 编 址 方式 下 ,总 是 把 低位 的 体内 地 址 送 到 
由 高 位 体 号 所 确定 的 模块 内 进行 译 码 。 
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图 7.17 连续 编 址 的 多 模块 存储 器 


对 于 连续 编 址 的 多 模块 主 存储 器 , 当 访问 一 个 连续 主 存 块 时 ,总 是 先 在 一 个 模块 内 访 
问 ,等 到 该 模块 全 部 单元 访问 完 才 转 到 下 一 个 模块 访问 。 现 代 计 算 机 采用 层次 化 存储 体系 
结构 ,在 CPU 和 主 存 之 间 加 入 了 高 速 缓存 (cache), 因而 CPU 总 是 先 访问 cache, 在 访问 
cache 失效 时 ,再 去 访问 主 存 ,将 一 个 主 存 块 内 连续 单元 中 的 信息 取 到 cache。 由 此 可 见 , 连 
续 编 址 方式 下 ,CPU 总 是 按 顺 序 访问 存储 模块 , 即 存储 模块 不 被 并 行 访问 ,因而 不 能 提高 存 
储 器 的 吞吐 率 。 但 是 ,如 果 在 CPU 访问 某 个 存储 模块 的 同时 , DMA 控制 器 正 控制 在 外 设 
和 另 一 个 存储 模块 之 间 实 现 数据 传输 操作 ,那么 ,两 个 存储 模块 可 独立 并 行 工作 ,这 种 情况 
下 就 能 提高 存储 器 的 吞吐 率 。 

2. 交叉 编 址 方式 

交叉 编 址 存储 器 中 , 主 存 地 址 的 低位 表示 模块 号 ,高 位 表示 模块 内 地 址 ,因此 ,也 称 按 低 
位 地 址 划分 方式 。 每 个 模块 按 “ 模 m” 交 又 方式 编 址 。 假 定 有 m 个 模块 ( 体 ) ,每 个 体 有 个 
单元 , 则 第 0,m,…,(k 一 1)m 单元 位 于 第 0 模块 ;第 1,m 十 1，,…,《k 一 1)m 十 1 单元 位 于 第 1 
模块 ;……; 第 一 1,2m 一 1,…,km 一 1 单元 位 于 m 一 1 号 模块 。 一 般 模 块 数 m 取 2 的 方 
等 ,这 样 硬 件 电路 比较 简单 。 但 有 的 机 器 为 了 减少 存储 器 冲突 ,采用 质数 个 模块 ,如 我 国 银 
河 机 就 取 m 为 31, 其 硬件 实现 比较 复杂 。 图 7. 18 是 模 4 交叉 编 址 方式 存储 器 示意 图 。 交 
叉 编 址 方式 下 ,总 是 把 高 位 的 体内 地 址 送 到 由 低位 体 号 所 确定 的 模块 内 进行 译 码 。 

交叉 编 址 多 模块 存储 器 可 以 采用 轮流 启动 或 同时 启动 两 种 方式 。 

1) 轮流 启动 

按 每 隔 1/m 个 存储 周期 轮流 启动 各 模块 进行 读 写 。 如 果 每 个 存储 模块 一 次 读 写 的 位 
数 ( 即 存储 字 ) 正 好 等 于 系统 总 线 中 的 数据 线 数 ( 即 总 线 传输 单位 ), 则 采用 轮流 启动 方式 。 
例如 , 若 每 隔 1/m 个 存储 周期 (Tw) 启 动 一 个 体 , 则 每 隔 1/m 个 存储 周期 就 可 读 出 或 写 和 一 
个 数据 , 存 取 速度 提高 m 倍 。 图 7.19 示意 了 这 种 4 体 交 叉 访 问 的 时 间 关 系 , 负 脉冲 为 启动 
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7.18 交叉 编 址 的 多 模块 存储 器 


每 个 体 的 信号 。 从 图 7. 19 可 看 出 ,每 个 体 的 存储 周期 并 没有 缩短 ,但 由 于 交叉 访问 各 体 ,所 
以 在 一 个 存储 周期 内 向 CPU 提供 了 4 个 存储 字 。 若 每 个 模块 的 存储 字 为 32 位 , 则 在 一 个 
存储 周期 内 向 CPU 提供 了 32X4 一 128 位 信息 ,因而 大 大 提高 了 存储 器 的 带宽 。 

,_ 单 体 访 存 周期 单 体 访 存 周 期 ， 





时 间 
启动 存储 体 0 


1 
1 1 1 
rir:i+1iU 
启动 在 从 人 站 站 
| | | | 
1 1 
| 1 


启动 存储 体 2 


Bm LT 
| 1 1 1 1 
图 7.19 四 体 交叉 轮流 访问 方式 


2) 同时 启动 

同时 启动 所 有 模块 进行 读 写 。 如 果 所 有 存储 模块 一 次 并 行 读 写 的 总 位 数 正好 等 于 系统 
总 线 中 的 数据 线 数 , 则 可 采用 同时 启动 方式 。 例 如 ,对 于 图 7. 12 所 示 的 存储 器 ,每 个 存储 模 
块 ( 即 DRAM 芯片 ) 提 供 8 位 ,8 个 存储 模块 一 共 提 供 64 位 ,正好 构成 一 个 存储 字 ,因此 ,应 
该 同时 启动 8 个 模块 进行 并 行 访问 。 

前 面 提 到 ,现代 计算 机 中 由 于 在 CPU 和 主 存 之 间 设 置 有 cache, 因 而 通常 CPU 是 对 一 
个 主 存 块 中 的 连续 单元 进行 访问 ,DMA 传送 也 是 将 一 块 连续 主 存单 元 与 高 速 设 备 进行 数 
据 交 换 , 因 此 ,对 主 存 的 访问 通常 都 是 连续 的 ,因而 在 交叉 编 址 多 模块 存储 器 中 访问 时 ,通常 
是 并 行 访问 多 个 存储 模块 ,因而 可 提高 访 存 速度 。 


7.6 高 速 缓冲 存储 器 
通过 提高 存储 芯片 本 身 的 速度 或 采用 并 行 存储 器 结构 可 以 缓解 CPU 和 主 存 之 间 的 束 


度 匹 配 问题 。 除 了 这 两 种 方法 以 外 ,在 CPU 和 主 存 之 间 设 置 高 速 缓存 (cache) 也 可 以 提高 
CPU 访问 指令 和 数据 的 速度 。 
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7.6.1 程序 访问 的 局 部 性 


对 大 量 典型 程序 运行 情况 分 析 的 结果 表明 ,在 较 短 时 间 间 隔 内 ,程序 产生 的 地 址 往往 集 
中 在 存储 器 的 一 个 很 小 的 范围 ,这 种 现象 称 为 程序 访问 的 局 部 性 ,可 细 分 为 时 间 局 部 性 和 空 
间 局 部 性 。 时 间 局 部 性 是 指 被 访问 的 某 个 存储 单元 在 一 个 较 短 的 时 间 间 隔 内 很 可 能 又 被 访 
问 。 空 间 局 部 性 是 指 被 访问 的 某 个 存储 单元 的 邻近 单元 在 一 个 较 短 的 时 间 间 隔 内 很 可 能 也 
被 访问 。 

出 现 程序 访问 的 局 部 性 特征 的 原因 不 难 理解 。 因 为 程序 是 由 指令 和 数据 组 成 的 。 指 令 
在 主 存 按 顺 序 存放 ,其 地 址 连续 ,循环 程序 段 或 子 程序 段 通 常 被 重复 执行 ,因此 ,指令 的 访问 
具有 明显 的 局 部 化 特性 ;而 数据 在 主 存 一 般 也 是 连续 存放 ,特别 是 数组 元 素 ,常常 被 按 序 重 
复 访 问 ,因此 ,数据 也 具有 明显 的 访问 局 部 化 特征 。 

例如 ,以 下 是 一 个 高 级 语言 程序 段 : 


1 sum=0; 

2 for(i=0; i<n; i++) 
分 Sum+=a[i]7 
4 


* V= SuUm7 


上 述 程序 段 对 应 的 汇编 程序 段 可 由 10 条 指令 组 成 ,用 中 间 语 言 描述 如 下 : 























I0 Sume 0 
和 ap<R ?A 是 数组 的 起 始 地 址 
I2 d= 
3 if(i>=n) goto done 
过 OxOFC 10 
I4 loop: t< (ap) ;数组 元 素 a [i] 的 值 0x100 Ti 
I5 sum<-sumt+t ;累加 值 在 sum 中 Ox104 2 中 
区 。 二 Ox108 B3 目 
I6 ap< apP+4 ;计算 下 一 个 数组 元 素 的 地 址 oxloc | 一 一 一 | 令 
I7 iei+1 0x110 I5 
I8 if(i<n) goto loop Ox114 16 
I9 done: Ve-sum ;累加 结果 保存 至 地 址 V 





上 述 描述 中 的 sum、ap、i、n、t 均 为 通用 寄存 器 ,A 和 0x400 al0] mA 
VV 为 主 存 地 址 。 假 定 每 条 指令 占 4 个 字 节 ,每 个 数组 元 素 004 | 一。 
占 4 个 字 节 , 按 字 节 编 址 , 则 指令 和 数组 元 素 在 主 存 中 的 oxtoc[ al | 数 





























存放 情况 如 图 7. 20 所 示 。 od44 [一 洗 
从 图 7. 20 可 看 出 ,在 程序 执行 过 程 中 ,首先 指令 按 I0 | 
一 B 的 顺序 执行 ,然后 ,指令 玛 ~I8 按 顺 序 被 循环 执行 n ee _, 





次 。 只 要 n 足够 大 ,程序 在 一 段 时 间 内 ,就 一 直 在 该 局 部 区 图 7 20 指 人 和 站 级 人 生存 在 放 
域内 执行 。 对 于 取 指 令 来 说 , 程序 对 主 存 的 访问 过 程 为 : 
OxOFC(I0)—>0x108(13)—>0x10C(I4)—>0x11C(18)—>0x120(19), 

n 次 


上 述 程 序 对 数组 的 访问 在 指令 14 中 进行 ,数组 下 标 每 次 加 4, 按 每 次 4 个 字 节 连续 访问 
主 存 。 因 为 数组 在 主 存 连续 存放 ,因此 ,该 程序 对 数据 的 访问 过 程 是 : 0x400 一 0x404 一 
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0x408 一 0x40C 一 … 一 0x7A4。 由 此 可 见 , 在 一 段 时 间 内 ,访问 的 数据 也 在 局 部 的 连续 区 
域内 。 

为 了 更 好 地 利用 程序 访问 的 空间 局 部 性 ,通常 把 当前 访问 单元 以 及 邻近 单元 作为 一 个 
主 存 块 一 起 调和 人 cache。 这 个 主 存 块 的 大 小 以 及 程序 对 数组 元 素 的 访问 顺序 等 都 对 程序 的 
性 能 有 一 定 的 影响 。 

例 7.1 假定 数组 元 素 按 行 优先 方式 存放 在 主 存 , 则 以 下 两 段 伪 代码 程序 A 和 了 B 中 ， 
(1) 对 于 数组 a 的 访问 , 哪 一 个 空间 局 部 性 更 好 ? 哪 一 个 时 间 局 部 性 更 好 ? (2) 变 量 sum 的 
空间 局 部 性 和 时 间 局 部 性 各 如 何 ? (3) 对 于 指令 访问 来 说 ,for 循环 体 的 空间 局 部 性 和 时 间 
局 部 性 如 何 ? 














程序 段 A: 

1 int sum-array-rows (int a[M] [N]) 

2 { 

3 int i, j, sum=0; 

4 for (i=0; i<M; i++) 

5 for (j=0; j<N; j++) 

6 sum+=al[i][j]; 

7 return sum; 

8 } 

程序 段 B 

1 int sum-array-cols (int a[M] [N]) 

2 { 

3 int i, j, sum=0; 

4 for (j=0; j<N; j++) 

5 for (i=0; i<M; i++) 

6 sum+=a[i] [j]; 

return sum; 

8 } OxOFC 10 
0x100 11 

解 : 假定 M、N 都 为 2048, 按 字 节 编 址 ,每 个 数组 元 素 el B [= 


占 4 个 字 节 , 则 指令 和 数据 在 主 存 的 存放 情况 如 图 7. 21 所 示 。 ”6x10c [fr 内 /外 循环 站 | 剖 
(1) 对 于 数组 a, 程 序 段 A 和 B 的 空间 局 部 性 相差 较 大 。 i Be 
程序 A 对 数组 a 的 访问 顺序 为 a[0][0],a[0][1] ,…， 

a[o][2047]; a[1][o],a[1][1],…,a[1][2047];…… 由 此 可 见 ， 

访问 顺序 与 存放 顺序 是 一 致 的 , 故 空间 局 部 性 好 。 0x400 | arolf] 


0x404 a[0][1] 


程序 B 对 数组 a 的 访问 顺序 为 aL0][0],a[1][0] ，…， 0x408 
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a[2047][0]; a[0][1], ea[1][1],…，,a[2047][1];…… 由 此 可 0 Ce 
见 , 访 问 顺序 与 存放 顺序 不 一 致 ,每 次 访问 都 要 跳 过 2048 个 数 。0x414 auD 

组 元 素 , 即 8192 个 单元 , 若 主 存 与 cache 的 交换 单位 小 于 8KB， : 

则 每 次 装 入 一 个 主 存 块 到 cache 时 ,下 个 要 访问 的 数组 元 素 总 0x7A4 一 v 
不 能 被 装 入 cache, 因 而 没有 空间 局 部 性 。 图 7.21 指令 和 二 维 数组 在 


主 存 的 存放 
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时 间 局 部 性 在 程序 A 和 B 中 都 差 , 因 为 每 个 数组 元 素 都 只 被 访问 一 次 。 

(2) 对 于 变量 sum ,在 程序 段 A 和 B 中 的 访问 局 部 性 是 一 样 的 。 空 间 局 部 性 对 单个 变 
量 来 说 没有 意义 ;而 时 间 局 部 性 在 A 和 B 中 都 较 好 ,因为 sum 变量 在 A 和 B 的 每 次 循环 中 
都 要 被 访问 。 不 过 ,通常 编译 器 都 将 其 分 配 在 寄存 器 中 ,循环 执行 时 只 要 取 寄 存 器 内 容 进行 
运算 ,最 后 再 把 寄存 器 的 值 写 回 到 存储 单元 中 。 

(3) 对 于 for 循环 体 , 程 序 段 A 和 B 中 的 访问 局 部 性 是 一 样 的 。 因 为 循环 体内 指令 按 
序 连 续 存 放 , 所 以 空间 局 部 性 好 ;内 循环 体 被 连续 重复 执行 2048X2048 次 ,因此 时 间 局 部 性 
也 好 。 

从 上 述 分 析 可 以 看 出 ,虽然 程序 A 和 B 的 功能 相同 ,但 因为 内 、 外 两 重 循环 的 顺序 不 同 
而 导致 两 者 对 数组 a 访问 的 空间 局 部 性 相差 较 大 ,从 而 带 来 执行 时 间 的 不 同 。 曾 有 人 将 这 
两 个 程序 (M 二 N= 二 2048) 放 在 2GHz Pentium 4 上 执行 以 进行 比较 ,其 实际 运行 结果 为 : 程 
序 A 的 执行 只 需要 59 393 288 个 时 钟 周期 ,而 程序 B 则 需要 1 277 877 876 个 时 钟 周期 。 程 
序 A 比 程序 B 快 21.5 倍 ! 


7.6.2 cache 的 基本 工作 原理 


cache 是 一 种 小 容量 高 速 缓冲 存储 器 ,由 快速 的 SRAM 组 成 ,直接 制作 在 CPU 芯片 内 ， 
速度 几乎 与 CPU 一 样 快 。 在 CPU 和 主 存 之 间 设 置 cache, 总 是 把 主 存 中 被 频繁 访问 的 活 
跃 程序 块 和 数据 块 复制 到 cache 中 。 由 于 程序 访问 的 局 部 性 ,大 多 数 情况 下 ,CPU 能 直接 
从 cache 中 取得 指令 和 数据 ,而 不 必 访 问 主 存 。 

为 便于 cache 和 主 存 间 交 换 信息 ,cache 和 主 存 空 间 都 被 划分 为 相等 的 区 域 。 主 存 中 的 
区 域 称 为 块 (block) ,也 称 为 主 存 块 , 它 是 cache 和 主 存 之 间 的 信息 交换 单位 ;cache 中 存放 
一 个 主 存 块 的 区 域 称 为 行 (line) 或 槽 (slot) 。 因 此 , 主 存 块 大 小 等 于 cache 行 中 数据 区 大 小 。 

1. cache 的 有 效 位 

在 系统 启动 或 复位 时 ,每 个 cache 行 都 为 空 ,其 中 的 信息 无 效 , 只 有 装 人 了 主 存 块 后 信 
息 才 有 效 。 为 了 说 明 cache 行 中 的 信息 是 否 有 效 ,每 个 cache 行 需要 一 个 有 效 位 (valid bit) 。 

有 了 有 效 位 ,就 可 通过 将 有 效 位 清 零 来 淘汰 某 cache 行 中 的 主 存 块 , 称 为 冲刷 (flush)， 
装 和 人 一 个 新 主 存 块 时 ,再 使 有 效 位 置 1 。 

2. CPU 在 cache 中 的 访问 过 程 

CPU 执行 程序 过 程 中 ,需要 从 主 存 取 指令 或 读数 据 时 , 先 检查 cache 中 有 没有 要 访问 
的 信息 ,车 有 ,就 直接 从 cache 中 读 取 ,而 不 用 访问 主 存储 器 ;车 没有 ,再 从 主 存 中 把 当前 访 
问 信息 所 在 的 一 个 主 存 块 复制 到 cache 中 ,因此 ,cache 中 的 内 容 是 主 存 中 部 分 内 容 的 副本 。 

图 7.22 给 出 了 带 cache 的 CPU 执行 一 次 访 存 操作 的 过 程 。 

如 图 7. 22 所 示 ,整个 访 存 过 程 包括 判断 信息 是 否 在 cache, 从 cache 取信 息 或 从 主 存 取 
一 个 主 存 块 到 cache 等 工作 ,甚至 在 对 应 cache 行 已 满 的 情况 下 还 要 替换 cache 中 的 信息 。 
这 些 工作 要 求 在 一 条 指令 执行 过 程 中 完成 ,因而 只 能 由 硬件 来 实现 。 因 此 ,cache 对 程序 员 
来 说 是 透明 的 ,程序 员 编 程 时 不 用 考虑 信息 存放 在 主 存 还 是 在 cache。 

3. cache- 主 存 层次 的 平均 访问 时 间 

如 图 7. 22 所 示 ,在 访 存 过 程 中 ,需要 判断 所 访问 信息 是 否 在 cache 中 。 若 CPU 访问 单 
元 所 在 的 块 在 cache 中 , 则 称 cache 命中 (hit) ,命中 的 概率 称 为 命中 率 p(hit rate) , 它 等 于 
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CPU 给 出 主 存 地 址 AD 
本 1 
1 1 
| 1 
否 | 从 主 存 取出 | 
AD 所 在 块 在 cache 中 AD 单元 所 在 块 
是 I | | 
从 cache 中 取信 息 送 CPU | 1 在 cache 中 找到 一 | 
| 个 对 应 的 空 亲 行 ! 
| 1 
| 
1 1 
| 1 1 | 
1 | 将 AD 单元 将 主 存 块 复 | 1 
| 内 容 送 CPU 制 到 cache 中 | 
1 1 
| | 
结束 | cache 缺 失 处 理 | 


图 7.22 带 cache 的 CPU 的 访 存 操作 过 程 


命中 次 数 与 访问 总 次 数 之 比 ; 若 不 在 cache 中 , 则 为 不 命中 (miss)@ ,其 概率 称 为 缺失 率 
(miss rate) , 它 等 于 不 命中 次 数 与 访问 总 次 数 之 比 。 命 中 时 ,CPU 在 cache 中 直接 存 取信 
息 , 所 用 的 时 间 开销 就 是 cache 访问 时 间 T. , 称 为 命中 时 间 (hit time) ;缺失 时 ,需要 从 主 存 
读 取 一 个 主 存 块 送 cache, 并 同时 将 所 需 信 息 送 CPU ,因此 ,所 用 时 间 开 销 为 主 存 访问 时 间 
Tu 和 cache 访问 时 间 T. 之 和 。 通 常 把 从 主 存 读 入 一 个 主 存 块 到 cache 的 时 间 T。 称 为 缺 
失 损 失 (miss penalty) 。 

CPU 在 cache- 主 存 层 次 的 平均 访问 时 间 为 

T=pXT+—p) X(T tT)= T+ pxT, 

由 于 程序 访问 的 局 部 性 特点 ,cache 的 命中 率 可 以 达到 很 高 ,接近 于 1。 因 此 ,虽然 
T。 人 >T,, 但 最 终 的 平均 访问 时 间 仍 可 接近 cache 的 访问 时 间 。 

例 7.2 假定 处 理 器 时 钟 周期 为 2ns, 某 程序 由 1000 条 指令 组 成 ,每 条 指令 执行 一 次 ， 
其 中 的 4 条 指令 在 取 指 令 时 没有 在 cache 中 找到 ,其 余 指 令 都 能 在 cache 中 取 到 。 在 执行 指 
令 过 程 中 ,该 程序 需要 3000 次 主 存 数据 访问 ,其 中 ,6 次 没有 在 cache 中 找到 。 试 问 : 

(1) 执行 该 程序 得 到 的 cache 命中 率 是 多 少 ? 

(2) 若 cache 中 存 取 一 个 信息 的 时 间 为 1 个 时 钟 周期 ,缺失 损失 为 4 个 时 钟 周期 , 则 
CPU 在 cache- 主 存 层 次 的 平均 访问 时 间 为 多 少 ? 

解 : (1) 执行 该 程序 时 的 总 访问 次 数 为 1000 十 3000 二 4000, 未 命中 次 数 为 4 十 6 二 10, 故 
cache 命中 率 为 (4000 一 10)/4000 二 99.75%。 

(2) cache- 主 存 层次 的 平均 访问 时 间 为 1 十 (1 一 99.75%) X4==1. 01 个 时 钟 周期 , 即 
1.01X2ns 二 2.02ns, 与 cache 的 访问 时 间 相 近 。 


外 国内 教材 对 “不 命中 ”的 说 法 有 多 种 ,如 “失效 ”,“ 失 靶 ”“ 缺 失 ” 等 ,其 含义 一 样 , 本 教材 使 用 “缺失 ”一 词 。 
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7.6.3 cache 行 和 主 存 块 之 间 的 映射 方式 


cache 行 中 的 信息 取 自 主 存 中 的 某 个 块 。 在 将 主 存 块 复制 到 cache 行 时 , 主 存 块 和 
cache 行 之 间 必 须 遵循 一 定 的 映射 规则 ,这 样 ,CPU 要 访问 某 个 主 存 单元 时 ,可 以 依据 映射 
规则 ,到 cache 对 应 的 行 中 查找 要 访问 的 信息 ,而 不 用 在 整个 cache 中 查找 。 

根据 不 同 的 映射 规则 , 主 存 块 和 cache 行 之 间 有 以 下 3 种 映射 方式 。 

(1) 直接 (direct) 映 射 : 每 个 主 存 块 映射 到 cache 的 固定 行 中 。 

(2) 全 相 联 (full associate) 映 射 : 每 个 主 存 块 映 射 到 cache 的 任意 行 中 。 

(3) 组 相 联 (set associate) 映 射 : 每 个 主 存 块 映射 到 cache 的 固定 组 的 任意 行 中 。 

以 下 分 别 介绍 这 3 种 映射 方式 。 

1. 直接 映射 

直接 映射 的 基本 思想 是 把 主 存 的 每 一 块 映 射 到 固定 的 一 个 cache 行 中 ,也 称 模 映射 ,其 
映射 关系 如 下 : 

cache 行 号 = 主 存 块 号 mod cache 行 数 

例如 ,假定 cache 共有 16 行 , 根 据 100 mod 16 王 4, 可 知 : 主 存 第 100 块 应 映射 到 cache 
的 第 4 行 中 。 

通常 cache 的 行 数 是 2 的 寡 次 ,假定 cache 有 2: 行 , 主 存 有 2” 块 ,这 个 映射 函数 的 直观 
含义 很 简单 , 即 以 m 位 主 存 块 号 中 后 c 位 作为 对 应 的 cache 行 号 来 进行 cache 映射 。 也 就 
是 说 ,m 位 块 号 中 低 c 位 相同 的 那些 内 存 块 , 即 “ 同 余 ” 内 存 块 ,将 被 映射 到 同一 个 cache 行 ， 
形成 一 个 “多 对 一 ”的 映射 关系 。 

简 言 之 , 主 存 块 以 2° 为 模 , 被 映射 到 cache 的 固定 行 中 ,如 图 7.23(a) 所 示 。 由 映射 函 
数 可 看 出 , 主 存 块 号 的 低 c 位 正好 是 它 要 装 人 的 cache 行 号 。 在 cache 中 ,给 每 一 个 行 设置 
一 个 上 位 长 的 标记 (tag) ,此 处 1 二 m 一 c, 主 存 某 块 调和 cache 后 ,就 将 其 块 号 的 高 t 位 设置 在 
对 应 cache 行 的 标记 中 。 





















































































































































贡 位 
位 c 位 b 位 
第 0 块 
第 1 块 标记 “| 行 号 | 块 内 地 址 
位 缺失 
第 0 行 | 标记 | 数据 -不 科 
第 1 行 第 2*-1 块 
第 2 人 块 
; 第 2*+1 块 标记 主 存 
第 2c-1 行 标记 
cache 加 = 
标记 主 存 
命中 读 出 
~ 第 2"-1 块 cache 读 出 数据 总 线 
主 存 < > 
(a) cache 和 主 存 间 的 映射 关系 (b) CPU 访 存 过 程 





图 7.23 cache 和 主 存 之 间 的 直接 映射 方式 


根据 以 上 分 析 可 知 , 主 存 地 址 被 分 成 以 下 3 个 字段 : 
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标记 cache 行 号 块 内 地 址 














其 中 ,高 上 位 为 标记 ,中 间 c 位 为 cache 行 号 (也 称 行 索 引 ), 剩 下 的 低位 地 址 为 块 内 地 
址 。CPU 访 存 过 程 如 图 7. 23(b) 所 示 。 

访 存 过 程 如 下 : 首先 根据 访 存 地 址 中 间 的 c 位 ,直接 找到 对 应 的 cache 行 ,将 对 应 cache 
行 中 的 标记 和 主 存 地 址 的 高 i 位 标记 进行 比较 ,车 相等 并 有 效 位 为 1, 则 访问 cache“ 命 中 ”， 
此 时 ,根据 主 存 地 址 中 低位 的 块 内 地 址 ,在 对 应 的 cache 行 中 存 取 信息 ;车 不 相等 或 有 效 位 
为 0, 则 “不 命中 ”( 缺 失 ) ,此 时 ,CPU 从 主 存 中 读 出 该 地 址 所 在 的 一 块 信息 送 到 对 应 的 cache 
行 中 ,将 有 效 位 置 1, 并 将 标记 设置 为 地 址 中 的 高 位 ,同时 将 该 地 址 中 的 内 容 送 CPU。 

CPU 访 存 时 , 读 操作 和 写 操 作 的 过 程 有 一 些 不 同 , 相 对 来 说 , 读 操 作 比 写 操作 简单 。 因 
为 cache 行 中 的 信息 是 主 存 某 块 的 副本 ,所 以 ,在 写 操作 时 会 出 现 cache 行 和 主 存 块 数据 的 
一 致 性 问题 。 这 将 在 7.6.5 节 中 详细 介绍 。 

下 面 通过 一 些 例子 来 说 明 cache 设计 中 的 一 些 问 题 。 

例 7.3 假定 主 存 和 cache 之 间 采 用 直接 映射 方式 , 块 大 小 为 512 字 。cache 容量 (指数 
据 区 ) 为 8K 字 , 主 存 空间 大 小 为 1M 字 。 问 : 主 存 地 址 如 何 划 分 ? 要 求 用 图 表示 主 存 块 和 
cache 行 之 间 的 映射 关系 ,假定 cache 当前 为 空 ,说 明 CPU 对 主 存单 元 0240CH 的 访问 
过 程 。 

解 : cache 数据 区 容量 为 8K 字 ==23 字 ==2' 行 X512 字 / 行 =16 行 X512 字 / 行 。 因 为 
主 存 每 16 块 和 cache 的 16 行 一 一 对 应 ,所 以 可 将 主 存 每 16 块 看 成 一 个 块 群 ,因而 ,得 到 主 
存 空间 地 址 划分 为 1M 字 =2” 字 ==2" 块 X512 字 / 块 三 27 块 群 X2' 块 / 块 群 X2? 字 / 块 。 所 
以 , 主 存 地 址 位 数 "一 20, 其 中 标记 位 数 :一 7 , 行 号 位 数 c= 二 4, 块 内 地 址 位 数 为 9。 

主 存 地 址 划分 以 及 主 存 块 和 cache 行 的 对 应 关系 如 图 7. 24 所 示 。 
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图 7.24 直接 映射 方式 下 主 存 块 和 cache 行 对 应 关系 
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主 存 地 址 0240CH 展开 为 二 进 制 数 为 0000 0010 0100 0000 1100, 所 以 主 存 地 址 划分 为 
以 下 3 个 部 分 : 





0000 001 0010 0 0000 1100 

















根据 主 存 地 址 划分 可 知 : 该 地 址 所 在 块 号 是 0000 001 0010( 第 18 块 ), 所 属 块 群 号 为 
0000 001( 第 1 块 群 ) ,映射 到 的 cache 行 号 为 0010( 第 2 行 )。 

假定 cache 为 空 ,访问 0240CH 单元 的 过 程 为 : 首先 根据 地 址 中 间 4 位 0010 找到 cache 
第 2 行 ,因为 cache 为 空 ,所 以 ,每 个 cache 行 的 有 效 位 都 为 0, 因此, 不管 第 2 行 的 标志 是 否 
等 于 0000 001 ,都 不 命中 。 此 时 ,将 0240CH 单元 所 在 的 主 存 第 18 块 复 制 到 cache 第 2 行 ， 
并 置 有 效 位 为 1, 置 标记 为 0000 001( 表 示 信 息 取 自主 存 第 1 块 群 ) 。 

例 7.4 假定 主 存 和 cache 之 间 采 用 直接 映射 方式 , 块 大 小 为 一 个 字 节 。cache 容量 ( 指 
数据 区 ) 为 4 个 字 节 , 主 存 地 址 为 32 位 , 按 字 节 编 址 。 问 : 主 存 地 址 如 何 划分 ? 根据 程序 访 
问 的 局 部 性 原理 说 明 块 大 小 设置 为 一 个 字 节 时 的 缺陷 。 

解 : 块 大 小 为 一 个 字 节 , 故 块 内 无 须 寻 址 , 即 块 内 地 址 位 数 为 0。cache 的 数据 区 存放 
4 个 字 节 , 共 有 4 个 行 。 因 此 ,32 位 主 存 地 址 被 划分 为 两 个 字段 : 标记 位 数 :一 30, 行 号 位 数 
< 一 2。 

块 大 小 设置 为 一 个 字 节 会 产生 以 下 两 个 方面 的 问题 。 

(1) 邻近 单元 很 可 能 被 访问 ,但 由 于 没有 跟着 该 字 节 调 入 cache, 因 此 邻近 单元 的 访问 
会 发 生 缺 失 。 也 就 是 说 , 块 大 小 为 一 个 字 节 时 ,程序 访问 的 空间 局 部 性 没有 被 利用 。 

(2) 在 cache 行 数 不 变 的 情况 下 , 块 太 小 使 得 映射 到 同一 个 cache 行 的 主 存 块 数 增加 ， 
发 生 冲 突 的 概率 增 大 ,引起 频繁 信息 交换 。 

例 7.5 假定 主 存 和 cache 之 间 采 用 直接 映射 方式 , 块 大 小 为 16B。cache 的 数据 区 容 
量 为 64KB, 主 存 地 址 为 32 位 , 按 字 节 编 址 。 问 : 主 存 地 址 如 何 划 分 ? 说 明 访 存 过 程 ,并 计 
算 cache 总 容量 为 多 少 。 

解 : cache 数据 区 容量 为 64KB==2*B==2”* 行 X2*B/ 行 。 

因为 主 存 的 每 2* 块 和 cache 的 2* 行 一 一 对 应 ,所 以 可 将 主 存 的 每 个 2” 块 看 成 一 个 块 
群 ,因而 ,得 到 主 存 地 址 空间 划分 为 2*B 二 2” 块 X2'B/ 块 = 王 2" 块 群 X2” 块 / 块 群 X2*B/ 块 。 
因此 , 主 存 地 址 位 数 ”一 32, 标 记 位 数 上 一 16 , 行 号 位 数 c 王 12, 块 内 地 址 位 数 为 4。 

主 存 地 址 的 划分 以 及 访 存 过 程 实现 如 图 7. 25 所 示 。 图 中 Tag 表示 标记 字段 ; ndex 表 
示 cache 行 索引 ,即行 号 ; 块 内 地 址 分 为 两 部 分 : 高 2 位 (Word 字段 ) 为 字 偏 移 量 , 低 2 位 
(Byte 字段 ) 为 字 节 偏 移 量 。Hit 表示 命中 。 

整个 访 存 过 程 由 硬件 实现 ,分 为 以 下 5 个 步骤 : @O 根 据 12 位 cache 行 索引 找到 对 应 行 ; 
@ 将 16 位 标志 与 对 应 行 中 的 标志 比较 ; @ 比 较 相 等 并 有 效 位 V 为 1 时 ,输出 Hit 为 1; @ 
由 两 位 字 偏 移 量 从 4 个 32 位 字 中 选择 一 个 字 输 出 ;@ 由 两 位 字 节 偏 移 量 从 一 个 32 位 字 中 
选择 一 个 字 节 输出 。CPU 在 Hit 为 1 的 情况 下 ,根据 要 访问 的 是 字 还 是 字 节 选择 从 第 图 步 
还 是 第 @ 步 得 到 结果 。 若 Hit 不 为 1, 则 CPU 要 启动 一 次 “cache 行 读 总线 事务 操作 ,通过 
总 线 到 主 存 读 一 块 连续 的 信息 到 cache 行 中 。 

从 图 7. 25 中 可 看 出 ,每 个 cache 行 由 一 位 有 效 位 V、16 位 标记 (Tag) 和 4 个 32 位 的 数 
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据 (Data) 组 成 ,共有 22 王 4K 行 , 因 此 ,cache 的 总 容量 为 2*X(4X32 十 16 十 1)==4KX 
145 二 580Kb 二 72. 5KB。 其 中 ,数据 占 总 容量 的 64KB/72. 5KB 一 88. 3%。 
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图 7.25 直接 映射 方式 的 实现 


直接 映射 的 优点 是 容易 实现 ,命中 时 间 短 。 但 由 于 多 个 块 号 “ 同 余 ”的 内 存 块 只 能 映射 
到 同一 个 cache 行 , 当 访问 集中 在 “ 同 余 "内存 块 时 ,就 会 引起 频繁 的 调 进 调 出 ,即使 其 他 
cache 行 都 空闲 ,也 毫 无 帮助 。 很 显然 ,直接 映射 方式 不 够 灵活 ,使 得 cache 存储 空间 得 不 到 
充分 利用 ,命中 率 较 低 。 例 如 , 例 7. 3 中 , 若 需 将 主 存 第 0 块 与 第 16 块 同时 调 人 cache, 由 于 
它们 都 只 对 应 cache 第 0 行 ,即使 其 他 行 空 闲 , 也 总 有 一 个 主 存 块 不 能 调和 人 cache, 因 此 会 产 
生 频 繁 的 调 进 调 出 。 

2. 全 相 联 映射 

全 相 联 映射 的 基本 思想 是 一 个 主 存 块 可 装 入 cache 任意 一 行 中 。 全 相 联 映射 cache 中 ， 
每 行 的 标记 用 于 指出 该 行 取 自 主 存 的 哪个 块 。 因 为 一 个 主 存 块 可 能 在 任意 一 行 中 ,所 以 , 需 
要 比较 所 有 cache 行 的 标记 ,因此 , 主 存 地 址 中 无 须 cache 行 索引 ,只 有 标记 和 块 内 地 址 两 个 
字段 。 全 相 联 映射 方式 下 ,只 要 有 空闲 cache 行 ,就 不 会 发 生 冲 突 , 因 而 块 冲突 概率 低 。 

例 7.6 假定 主 存 和 cache 之 间 采 用 全 相 联 映射 , 块 大 小 为 512 字 。cache 容量 (指数 据 
区 ) 为 8K 字 , 主 存 地 址 空间 为 1M 字 。 问 : 主 存 地 址 如 何 划 分 ? 要 求 用 图 表示 主 存 块 和 
cache 行 之 间 的 映射 关系 ,并 说 明 CPU 对 主 存单 元 0240CH 的 访问 过 程 。 

解 : cache 数据 区 容量 为 8K 字 王 22 字 王 2 行 X512 字 / 行 =16 行 X2* 字 / 行 。 

主 存 地 址 空间 为 1M 字 王 22 字 一 22 块 X512 字 / 块 。 

20 位 的 主 存 地 址 划分 为 两 个 字段 : 标记 位 数 上 一 11, 块 内 地 址 位 数 为 9。 

主 存 地 址 划分 以 及 主 存 块 和 cache 行 之 间 的 对 应 关系 如 图 7. 26 所 示 。 

主 存 地 址 0240CH 展开 成 二 进 制 数 为 0000 0010 0100 0000 1100, 所 以 主 存 地 址 划分 为 











0000 0010 010 0 0000 1100 








访问 0240CH 单元 的 过 程 为 : 首先 将 高 11 位 标记 0000 0010 010 与 cache 中 每 个 行 的 标记 


着 储 器 分 层 余 系 结 欧 
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图 7.26 全 相 联 映射 方式 下 主 存 块 和 cache 行 对 应 关系 


进行 比较 , 若 有 一 个 相等 并 且 对 应 有 效 位 为 1, 则 命中 ,此 时 ,CPU 根据 块 内 地 址 0 0000 1100 
从 该 行 中 取出 信息 ; 若 都 不 相等 , 则 不 命中 , 此 时 ,需要 将 0240CH 单元 所 在 的 主 存 第 
0000 0010 010 块 ( 即 第 18 块 ) 复 制 到 cache 的 任何 一 个 空闲 行 中 ,并 置 有 效 位 为 1, 置 标记 
为 0000 0010 010( 表 示 信 息 取 自 主 存 第 18 块 ) 。 

为 了 加 快 比较 的 速度 ,通常 每 个 cache 行 都 设置 一 个 比较 器 ,比较 器 位 数 等 于 标记 字段 
的 位 数 。 全 相 联 cache 访 存 时 根据 标记 字段 的 内 容 来 访问 cache 行 中 的 主 存 块 ,因而 它 查 找 
主 存 块 的 过 程 是 一 种 * 按 内 容 访问 ”的 存 取 方 式 , 因 此 , 它 是 一 种 * 相 联 存储 器 ”。 相 联 映射 方 
式 的 时 间 开 销 和 所 用 元 件 开销 都 较 大 ,实现 起 来 比较 困难 ,不 适合 容量 较 大 的 cache。 

3. 组 相 联 映射 

前 面 介 绍 了 全 相 联 映射 和 直接 映射 ,它们 的 优 缺 点 正好 相反 ,二 者 结合 可 以 取长补短 。 
因此 将 两 种 方式 结合 起 来 产生 了 组 相 联 映射 方式 。 

组 相 联 映射 的 主要 思想 是 ,将 cache 所 有 行 分 成 2" 个 大 小 相等 的 组 ,每 组 有 2: 行 。 每 
个 主 存 块 被 映射 到 cache 固定 组 中 的 任意 一 行 , 即 组 相 联 采用 组 间 模 映射 ,组 内 全 映射 的 方 
式 , 映 射 关 系 如 下 : 

cache 组 号 = 主 存 块 号 mod cache 组 数 

例如 ,假定 8K 字 的 cache 划分 为 2 组 X2! 行 /组 X512 字 / 行 , 则 主 存 第 100 块 应 映射 
到 cache 第 4 组 的 任意 一 行 中 ,因为 100 mod 2 一 4。 

如 此 设置 的 2 组 X2: 行 /组 的 cache 映射 方式 称 为 2 路 组 相 联 映射 , 即 ;==1 为 2 路 组 
相 联 ;s 二 2 为 4 路 组 相 联 ;以 此 类 推 。 通 过 对 主 存 块 号 取 模 ,使 得 每 2” 个 主 存 块 与 2 个 
cache 组 一 一 对 应 , 主 存 地 址 空间 实际 上 被 分 成 了 若干 组 群 ,每 个 组 群 中 有 2° 个 主 存 块 对 应 
于 cache 的 2? 个 组 。 假 设 主 存 地 址 及 位 , 块 内 地 址 占 & 位 ,有 2” 个 组 群 , 则 nn 二 =m 十 gq 十 k， 
主 存 地 址 被 划分 为 以 下 3 个 字段 : 





标记 cache 组 号 块 内 地 址 

















其 中 ,高 m 位 为 标记 ,中 间 4 位 为 组 号 (也 称 组 索引 ), 剩 下 的 位 低位 地 址 部 分 为 块 内 


第 


~ 


章 


计算 机 组 成 与 系统 结 欧 (第 2 版 ) 





地 址 。 标 记 字 段 的 含义 表示 当前 地 址 所 在 的 主 存 块 位 于 主 存 哪 个 组 群 。 

例如 ,假定 cache 数据 区 容量 为 SKB, 每 个 主 存 块 大 小 为 32 字 节 , 按 字 节 编 址 , 则 块 内 
地 址 的 位 数 &= 一 5; 采用 2 路 组 相 联 , 即 每 组 有 2 行 , 则 cache 有 8KB/(32BX2) 王 128 组 , 即 
gq 二 7,s 二 1。 假 定 主 存 地 址 为 32 位 , 则 六 一 32 一 7 一 5 一 20, 即 主 存 共有 22 个 组 群 ,每 个 组 群 
有 2 二 128 块 ,每 块 有 2 二 32 字 节 ,因而 主 存 地 址 划分 为 : 标记 20 位 ,组 号 7 位 , 块 内 地 址 
5 位 。 

s 的 选取 决定 了 块 冲突 的 概率 和 相 联 比较 的 复杂 性 。s 越 大 , 则 cache 发 生 块 冲突 的 概 
率 越 低 , 相 联 比较 电路 越 复杂 。 选 取 适 当 的 ;, 可 使 组 相 联 映射 的 成 本 比 全 相 联 的 低 得 多 ， 
而 性 能 上 仍 可 接近 全 相 联 方式 。 早 几 年 ,由 于 cache 容量 不 大 ,所 以 通常 ;二 1 或 2, 即 2 路 
或 4 路 组 相 联 较 常 用 ,但 随 着 技术 的 发 展 ,cache 容量 不 断 增 加 ,s 的 值 有 增 大 的 趋势 ,目前 
有 许多 处 理 器 的 cache 采用 8 路 或 16 路 组 相 联 方式 。 

对 于 组 相 联 cache, CPU 访 存 过 程 如 下 : 首先 根据 访 存 地 址 中 间 的 9 位 cache 组 号 , 直 
接 找 到 对 应 的 cache 组 ;将 对 应 cache 组 中 每 个 行 的 标记 与 主 存 地 址 的 高 m 位 标记 进行 比 
较 ; 若 有 一 个 相等 并 有 效 位 为 1, 则 访问 cache* 命 中 ”, 此 时 ,根据 主 存 地 址 中 的 块 内 地 址 ,在 
对 应 cache 行 中 存 取 信息 ;车 都 不 相等 或 虽 相 等 但 有 效 位 为 0, 则 “不 命中 ”, 此 时 ,CPU 从 主 
存 中 读 出 该 地 址 所 在 的 一 块 信息 送 到 cache 对 应 组 的 任意 一 个 空闲 行 中 ,将 有 效 位 置 1, 并 
设置 标记 ,同时 将 该 地 址 中 的 内 容 送 CPU 。 实 现 组 相 联 映射 的 硬件 线路 如 图 7. 27 所 示 。 
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图 7.27 组 相 联 映射 方式 的 硬件 实现 






































图 7.27 所 示 的 是 采用 2 路 组 相 联 映射 的 cache, 整 个 访 存 过 程 如 下 : @ 根 据 主 存 地 址 
中 的 cache 组 号 找到 对 应 组 ; @ 将 地 址 中 的 标记 与 对 应 组 中 每 个 行 的 标记 Tag 进行 比较 ; 
@ 将 比较 结果 和 有 效 位 V 相 “ 与 ”; @ 若 有 一 路 比较 相等 并 有 效 位 为 1, 则 输出 Hit 为 1, 并 
选中 这 一 路 cache 行 中 的 主 存 块 ; @ 在 Hit 为 1 的 情况 下 ,根据 主 存 地 址 中 的 块 内 地 址 从 选 
中 的 一 块 内 取出 对 应 单元 的 信息 ;车 Hit 不 为 1, 则 CPU 要 到 主 存 去 读 一 块 信息 到 cache 行 
中 。 

例 7.7 假定 主 存 和 cache 之 间 采 用 2 路 组 相 联 映射 , 块 大 小 为 512 字 。cache 容量 ( 指 
数据 区 ) 为 8K 字 , 主 存 地 址 空间 为 1M 字 。 问 : 主 存 地 址 如 何 划 分 ? 要 求 用 图 表示 主 存 块 
和 cache 行 之 间 的 映射 关系 ,并 说 明 CPU 对 主 存单 元 0240CH 的 访问 过 程 。 


着 储 器 分 层 余 系 绪 欧 


解 : cache 数据 容量 为 8K 字 王 23 字 一 23 组 X21: 行 /组 X512 字 / 行 。 

主 存 地 址 空间 为 1M 字 王 22 字 一 24 块 X512 字 / 块 =2: 组 群 X2 块 /组 群 X2? 字 / 块 。 
所 以 , 主 存 地 址 位 数 n 二 20, 标 记 位 数 m 二 8, 组 号 位 数 9 一 3, 块 内 地 址 位 数 & 为 9。 
主 存 地 址 划分 以 及 主 存 块 和 cache 行 的 对 应 关系 如 图 7. 28 所 示 。 
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7.28 组 相 联 映射 方式 下 主 存 块 和 cache 行 对 应 关系 


主 存 地 址 0240CH 展开 为 二 进 制 数 为 0000 0010 0100 0000 1100, 所 以 主 存 地 址 划分 为 





0000 0010 010 0 0000 1100 

















访问 0240CH 单元 的 过 程 为 : 首先 根据 地 址 中 间 3 位 010 ,找到 cache 第 2 组 ,将 标记 
0000 0010 与 第 2 组 中 两 个 cache 行 的 标记 同时 进行 比较 , 若 有 一 个 相等 并 且 有 效 位 是 1, 则 
命中 。 此 时 ,根据 低 9 位 块 内 地 址 从 对 应 行 中 取出 单元 内 容 送 CPU。 若 都 不 相等 或 有 一 个 
相等 但 有 效 位 为 0, 则 不 命中 。 此 时 ,将 0240CH 单元 所 在 的 主 存 第 0000 0010 010 块 ( 即 第 
18 块 ) 复 制 到 cache 第 010 组 ( 即 第 2 组 ) 的 任意 一 个 空 行 中 ,并 置 有 效 位 为 1, 置 标记 为 
0000 0010( 表 示 信 息 取 自主 存 第 2 组 群 ) 。 

组 相 联 映射 方式 结合 了 直接 映射 和 全 相 联 映射 的 优点 。 当 cache 的 组 数 为 1 时 , 变 为 
全 相 联 映射 ; 当 每 组 只 有 一 个 cache 行 时 , 则 变 为 直接 映射 。 组 相 联 映射 的 冲突 概率 比 直 接 
映射 低 ,由 于 只 有 组 内 各 行 采用 全 相 联 映射 ,所 以 比较 器 的 位 数 和 个 数 都 比 全 相 联 映射 少 ， 
易于 实现 ,查找 速度 也 快 得 多 。 

4. 三 种 映射 方式 比较 

对 于 一 个 主 存 块 来 说 ,3 种 映射 方式 下 对 应 cache 行 的 个 数 不 同 。 直 接 映 射 是 唯一 映 
射 ,每 个 主 存 块 只 有 一 个 固定 行 与 之 对 应 ;全 相 联 映射 是 任意 映射 ,每 个 行 都 可 对 应 ;N 路 
组 相 联 映射 有 N 行 对 应 。 这 种 特性 可 用 “关联 度 ” 来 度量 , 即 关 联 度 指 一 个 主 存 块 映射 到 
cache 中 时 可 能 存放 的 位 置 个 数 。 因 此 ,直接 映射 的 关联 度 最 低 , 为 1; 全 相 联 映射 的 关联 度 
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最 高 ,为 cache 总 行 数 ; N 路 组 相 联 映射 的 关联 度 居中 ,为 N。 

当 cache 大 小 、 主 存 块 大 小 一 定时 ,关联 度 和 命中 率 、 命 中 时 间 、 标 记 所 占 额 外 开销 等 有 
如 下 关系 : 

(1) 关联 度 越 低 ,命中 率 越 低 。 因 此 直接 映射 命中 率 最 低 ,全 相 联 映射 命中 率 最 高 。 

(2) 关联 度 越 低 ,判断 是 否 命中 的 开销 越 小 ,命中 时 间 越 短 。 因 此 ,直接 映射 的 命中 时 
间 最 短 , 全 相 联 映射 的 命中 时 间 最 长 。 

(3) 关联 度 越 低 , 标 记 所 占 额外 空间 开销 越 少 。 因 此 ,直接 映射 额外 空间 开销 最 少 ,全 
相 联 映射 额外 空间 开销 最 大 。 

例 7.8 假定 主 存 地 址 为 32 位 , 按 字 节 编 址 , 主 存 块 大 小 为 16 字 节 ,cache 最 多 能 存放 
4K 个 主 存 块 数据 , 则 在 关联 度 分 别 为 1.2、4 和 全 相 联 方式 下 标记 所 占 总 位 数 是 多 少 ? 

解 : 关联 度 为 1( 即 直接 映射 ) 时 ,每 组 1 行 , 共 4K 组 ,标记 占 32 一 4 一 12 二 16 位 ,总 位 
数 占 4KX16 二 64K 位 。 

关联 度 为 2( 即 2 路 组 相 联 ) 时 ,每 组 2 行 , 共 2K 组 ,标记 占 32 一 4 一 11 一 17 位 ,总 位 数 
占 4KX17=68K 位 。 

关联 度 为 4( 即 4 路 组 相 联 ) 时 ,每 组 4 行 , 共 1K 组 ,标记 占 32 一 4 一 10 王 18 位 ,总 位 数 
占 4KX18=72K 位 。 

全 相 联 时 ,整个 为 1 组 ,每 组 4K 行 ,标记 占 32 一 4 一 28 位 ,总 位 数 占 4K xX 28= 
112K 位 。 


7.6.4 cache 中 主 存 块 的 替换 算法 


cache 行 数 比 主 存 块 数 少 得 多 ,因此 ,往往 多 个 主 存 块 会 映射 到 同一 个 cache 行 中 。 当 
新 的 一 个 主 存 块 复制 到 cache 时 ,cache 中 的 对 应 行 可 能 已 经 全 部 被 占 满 ,此 时 ,必须 选择 淘 
状 一 个 cache 行 中 的 主 存 块 。 例 如 ,对 于 例 7.7 中 的 2 路 组 相 联 映射 cache, 假 定 第 0 组 的 
两 个 行 分 别 被 主 存 第 0 块 和 第 8 块 占 满 , 此 时 若 需 调 人 主 存 第 16 块 ,根据 映射 关系 , 它 只 能 
存放 到 cache 第 0 组 ,因此 ,已 经 在 第 0 组 的 主 存 第 0 块 和 第 8 块 这 两 块 中 ,必须 选择 调 出 
其 中 一 块 ,到 底 调 出 哪 一 块 呢 ?这 就 是 淘汰 策略 问题 ,也 称 为 替换 算法 或 替换 策略 。 

常用 的 替换 算法 有 先进 先 出 (First-In-First-Out, FIFO)、 最 近 最 少 用 (Least-Recently 
Used,LRU) 、 最 不 经 常用 (Least-Frequently Used,LFU) 和 随机 替换 算法 等 。 可 以 根据 实 
现 的 难 易 程度 以 及 是 否 能 获得 较 高 的 命中 率 两 方面 来 决定 采用 哪 种 算法 。 

1. 先进 先 出 算法 

FIFO 算法 的 基本 思想 是 : 总 是 选择 最 早 装 入 cache 的 主 存 块 被 替换 。 这 种 算法 实现 
起 来 较 方 便 , 但 不 能 正确 反映 程序 的 访问 局 部 性 ,因为 最 先进 入 的 主 存 块 也 可 能 是 目前 经 常 
要 用 的 ,因此 ,这 种 算法 有 可 能 产生 较 大 的 缺失 率 。 

2. 最 近 最 少 用 算法 

LRU 算法 的 基本 思想 是 : 总 是 选择 近期 最 少 使 用 的 主 存 块 被 替换 。 这 种 算法 能 比较 
正确 地 反映 程序 的 访问 局 部 性 ,因为 当前 最 少 使 用 的 块 一 般 来 说 也 是 将 来 最 少 被 访问 的 。 
但 是 , 它 的 实现 比 FIFO 算法 要 复杂 一 些 。 

下 面 用 一 个 例子 来 说 明 LRU 算法 的 具体 实现 。 为 简化 说 明 , 以 下 假设 组 相 联 方式 下 不 一 
定 满足 组 大 小 是 2 的 宕 次 ,虽然 这 样 假设 与 实际 不 符 , 但 并 不 影响 对 实现 原理 的 解释 说 明 。 
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假定 主 存 中 的 5 块 {1,2,3,4,5} 映 射 到 cache 的 同一 组 ,对 于 主 存 块 访问 地 址 流 {1,2， 
3,4,1,2,5,1,2,3,4,5}, 在 3 路 组 相 联 .4 路 组 相 联 和 5 路 组 相 联 的 情况 下 ,采用 LRU 算法 
的 替换 过 程 如 图 7. 29 所 示 。 





































































































1 cE 
1| [2] [31 [141 fi| Fz] Fs] fi] Fz] f31 Fal fs 
1| 2 3 af fl zl tsi fl fz| fs| fa 
en 
1| [2| 1 14 Fal fal 15 hil 2 
3|113|13| 4 
3 行 /组 六 沪 
4 行 /组 YY  V YY 1 
5 行 / 组 | YY YY YY YJ 


图 7.29 LRU 替换 算法 示例 


从 图 7. 29 可 以 看 出 : 在 LRU 算法 中 ,同一 时 刻 小 组 中 的 块 集合 必然 是 大 组 中 块 集合 
的 子 集 。 因 此 ,在 小 组 中 命中 时 在 大 组 中 肯定 命中 ,我 们 把 满足 这 种 特性 的 算法 称 为 栈 算 
法 。 因 此 ,LRU 算法 是 栈 算法 。 当 然 ,并 不 是 组 越 大越 好 ,因为 组 内 采用 全 相 联 映射 , 随 着 
组 的 增 大 ,实现 的 复杂 性 也 会 增加 。 

当 程序 中 的 分 块 局 部 化 范围 ( 即 程序 中 某 段 时 间 集 中 访问 的 存储 区 ) 超 过 了 cache 组 的 
大 小 时 ,命中 率 可 能 变 得 很 低 。 例 如 ,假设 上 述 例子 中 的 访 存 地 址 流 是 1,2,3,4,1,2,3,4， 
1,2,3,4,…, 而 cache 每 组 只 有 3 行 ,那么 命中 率 为 0。 这 种 现象 称 为 颠 自 (pingpong) 或 拌 
动 (thrashing) 。 

LRU 算法 并 不 像 图 7. 29 所 示 的 通过 移动 块 来 实现 。 实 际 上 ,每 个 cache 行 有 一 个 计 
数 器 ,用 计数 值 来 记录 主 存 块 的 使 用 情况 ,通过 硬件 修改 计数 值 , 并 根据 计数 值 选择 淘汰 某 
个 cache 行 中 的 主 存 块 。 淘 汰 时 ,只 要 将 被 淘汰 行 的 有 效 位 清 零 即 可 。 这 个 计数 值 称 为 
LRU 位 ,其 位 数 与 cache 组 大 小 有 关 。2 路 时 有 一 位 LRU 位 ,4 路 时 有 两 位 LRU 位 。 

图 7.30 是 图 7. 29 例子 中 4 路 组 相 联 的 示例 。 图 中 左边 的 数字 是 对 应 cache 行 的 计数 
值 ,右边 的 数字 是 存放 在 该 行 中 的 主 存 块 号 。 
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图 7.30 用 计数 器 实现 LRU 算法 


计数 器 的 变化 规则 如 下 : 

(1) 命中 时 ,被 访问 的 行 的 计数 器 清 零 , 比 其 低 的 计数 器 加 1, 其 余 不 变 。 

(2) 未 命中 且 该 组 还 有 空闲 行 时 , 则 新 装 入 的 行 的 计数 器 设 为 0, 其余 全 加 1。 

(3) 未 命中 且 该 组 无 空闲 行 时 ,计数 值 为 3 的 那 一 行 中 的 主 存 块 被 淘汰 ,新 装 和 人 的 行 的 
计数 器 设 为 0 ,其余 加 1。 从 计数 器 变化 规则 可 以 看 出 ,计数 值 越 高 的 行 中 的 主 存 块 越 是 最 
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近 最 少 用 。 

为 简化 上 述 LRU 位 计数 的 硬件 实现 ,通常 采用 一 种 近似 的 LRU 位 计数 方式 来 实现 
LRU 算法 。 近 似 LRU 计数 方法 仅 区 分 哪些 是 新 调 人 的 主 存 块 ,哪些 是 较 长 时 间 未 用 的 主 
存 块 ,然后 ,在 较 长 时 间 未 用 的 块 中 选择 一 个 被 蔡 换 出 去 。 

3. 最 不 经 常用 算法 

LFU 算法 的 基本 思想 是 : 替换 cache 中 引用 次 数 最 少 的 块 。LFU 也 用 与 每 个 行 相关 
的 计数 器 来 实现 。 这 种 算法 与 LRU 类 似 , 但 不 完全 相同 。 

4. 随机 替换 算法 

从 候选 行 的 主 存 块 中 随机 选取 一 个 淘汰 ,与 使 用 情况 无 关 。 模 拟 试验 表明 ,随机 替换 算 
法 在 性 能 上 只 稍 逊 于 基于 使 用 情况 的 算法 ,而 且 代价 低 。 

例 7.9 假定 主 存 空间 大 小 为 32KX16 位 , 按 字 编 址 ,每 字 16 位 。cache 采 用 4 路 组 相 
联 映射 方式 ,数据 区 大 小 为 4K 字 , 主 存 块 大 小 为 64 字 。 假 定 cache 开始 为 空 , 处 理 器 按 顺 
序 访 问 主 存 单元 0、1、…、4351, 一 共 重 复 访问 10 次 。 假 设 cache 比 主 存 快 10 倍 ,采用 LRU 
替换 算法 。 试 分 析 采 用 cache 后 速度 提高 了 多 少 ? 

解 : 主 存 空间 大 小 为 32K 字 王 512 块 X 64 字 / 块 ,cache 数据 区 容量 为 4K 字 ==16 组 X 
4 行 /组 X64 字 / 行 ,所 以 ,cache 共 有 64 行 ,分 成 16 组 ,每 组 4 行 。 

因为 每 块 为 64 字 ,4352/64 王 68, 所 以 主 存单 元 0 一 4351 应 该 对 应 前 68 块 (第 0 一 67 块 )， 
即 处 理 器 的 访问 过 程 是 对 主 存 前 68 块 连续 访问 10 次 。 

图 7.31 给 出 了 前 两 次 循环 的 主 存 块 替 换 情况 ,图 中 列 方向 是 cache 的 16 个 组 , 行 方向 
是 每 组 的 4 个 cache 行 。 根 据 组 相 联 映射 的 特点 ,cache 行 和 主 存 块 之 间 的 映射 关系 如 下 : 
主 存 第 0 一 15 块 分 别 对 应 cache 第 0 一 15 组 ,可 以 放 在 对 应 组 的 任 一 行 中 ,在 此 ,假定 按 顺 
序 存放 在 第 0 行 ; 主 存 第 16 一 31 块 也 分 别 对 应 cache 的 第 0 一 15 组 ,假定 放 到 第 1 行 ; 同 
理 , 主 存 第 32 一 47 块 分 别 放 到 cache 第 0 一 15 组 的 第 2 行 ; 第 48 一 63 块 分 别 放 到 cache 第 
0 一 15 组 的 第 3 行 。 这 样 ,第 0 一 63 块 都 没有 冲突 ,每 块 都 是 第 一 个 字 在 cache 中 没有 找到 ， 
调 到 cache 对 应 组 的 某 一 行 后 ,其 余 每 个 字 都 能 在 cache 中 找到 。 因 此 每 一 块 只 有 第 一 字 未 
命中 ,其 余 的 63 个 字 都 命中 。 





第 0 行 第 1 行 第 2 行 第 3 行 
第 0 组 0164148 16/0/64 32116 48132 
第 1 组 1165149 17/1/65 33117 49133 
第 2 组 2/66/50 18/2/66 34/18 50134 
第 3 组 3167151 19/3/97 35/19 51/35 
第 4 组 4 20 36 52 
第 15 组 15 31 47 63 





图 7.31 例 7.9 中 主 存 块 的 替换 情况 


主 存 的 第 64 一 67 块 分 别 对 应 cache 的 第 0 一 3 组 ,此 时 ,这 4 组 的 4 行 都 不 空闲 ,所 以 
要 选择 一 个 字 块 被 淘汰 。 因 为 采用 LRU 算法 ,所 以 ,分 别 将 最 近 最 少 用 的 第 0 一 3 块 从 第 
0 一 3 组 的 第 0 行 中 替换 出 来 。 再 把 第 64 一 67 块 分 别 放 到 对 应 cache 行 中 ,每 块 也 都 是 第 一 
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个 字 在 cache 中 没有 找到 , 调 人 后 其 余 63 个 字 都 能 在 cache 中 找到 。 

综 上 所 述 ,第 一 次 循环 时 ,对 于 所 有 68 块 都 只 有 第 一 字 未 命中 ,其 余 63 字 都 命中 。 

以 后 9 次 循环 中 ,因为 cache 第 4 一 15 组 中 的 4X12 一 48 个 cache 行 内 的 主 存 块 一 直 没 
有 被 替换 ,所 以 只 有 68 一 48 二 20 个 主 存 块 的 第 一 字 未 命中 ,其余 都 命中 。 

访问 总 次 数 为 4352 X10 二 43520, 其 中 ,未 命中 次 数 为 68 十 9X20 一 248。 

命中 率 p= 二 (43520 一 248)/43520 二 99. 43%。 

假定 cache 和 主 存 的 访问 时 间 分 别 为 t. 和 如 ,根据 题 意 可 知 i 二 10t.。 采 用 cache 后 ， 
cache- 主 存 层 次 的 平均 访问 时 间 为 

在 一 大 十 (1 一 轧 ) 如 三 大 十 (1 一 力 ) X 10t。 
因此 ,采用 cache 后 速度 提高 的 倍数 为 
tn/ts = 10t/( 大 十 (1 一 加 ) X10t) 一 10/(1 十 (1 一 加 ) XX10) 9.5 


7.6.5 cache 的 一 致 性 问题 


因为 cache 中 的 内 容 是 主 存 块 副本 , 当 对 cache 中 的 内 容 进行 更 新 时 ,就 存在 cache 和 
主 存 如 何 保持 一 致 的 问题 。 除 此 之 外 ,以 下 情况 也 会 出 现 cache 一 致 性 问题 。 

(1) 当 多 个 设备 都 允许 访问 主 存 时 。 例 如 , 像 磁盘 这 类 高 速 IO 设备 可 通过 DMA 方 
式 直 接 读 写 主 存 , 如果 cache 中 的 内 容 被 CPU 修改 而 主 存 块 没有 更 新 , 则 从 主 存 传送 到 
1/O 设 备 的 内 容 就 无 效 ; 若 I/O 设备 修改 了 主 存 块 的 内 容 , 则 对 应 cache 行 中 的 内 容 就 
无 效 。 

(2) 当 多 个 CPU 都 带 有 各 自 的 cache 而 共享 主 存 时 。 在 多 CPU 系统 中 , 若 某 个 CPU 
修改 了 自身 cache 中 的 内 容 , 则 对 应 的 主 存 块 和 其 他 CPU 中 对 应 的 cache 行 的 内 容 都 变 为 
无 效 。 

解决 cache 一 致 性 问题 的 关键 是 处 理 好 写 操作 。 通 常 有 两 种 写 操作 方式 。 

1. 全 写法 

全 写法 (write through) 的 基本 做 法 是 : 写 操 作 时 , 若 写 命中 , 则 同时 写 cache 和 主 存 ; 若 
写 不 命中 , 则 有 以 下 两 种 处 理 方式 。 

(1) 写 分 配 法 (write allocate) 。 先 在 主 存 块 中 更 新 相应 存储 单元 ,然后 分 配 一 个 cache 
行 , 将 更 新 后 的 主 存 块 装 和 人 到 分 配 的 cache 行 中 。 这 种 方式 可 以 充分 利用 空间 局 部 性 ,但 每 
次 写 不 命中 都 要 从 主 存 读 一 个 块 到 cache 中 ,增加 了 读 主 存 块 的 开销 。 

(2) 非 写 分 配 法 (not write allocate) 。 仅 更 新 主 存单 元 而 不 装 和 人 主 存 块 到 cache 中 。 这 
种 方式 可 以 减少 读 入 主 存 块 的 时 间 ,但 没有 很 好 地 利用 空间 局 部 性 。 

由 此 可 见 ,全 写法 实际 上 采用 的 是 对 主 存 块 信息 及 其 所 有 副本 信息 全 都 直接 同步 更 新 
的 做 法 ,因此 ,该 方式 通常 也 被 称 为 通 写法 或 直 写 法 ,也 有 教材 称 之 为 写 直达 法 。 

显然 ,采用 全 写法 使 得 cache 和 主 存 的 一 致 性 能 得 到 充分 保证 。 但 是 ,这 种 方法 会 大 大 
增加 写 操作 的 开销 。 例 如 ,假定 一 次 写 主 存 需 要 100 个 CPU 时 钟 周期 ,那么 10% 的 存 数 指 
令 就 使 得 CPI 增 加 了 100X10%% 王 10 个 时 钟 。 

为 了 减少 写 主 存 的 开销 ,通常 在 cache 和 主 存 之 间 加 一 个 写 缓冲 (write buffer) 。 在 
CPU 写 cache 的 同时 ,也 将 信息 写 和 人 写 缓冲 ,然后 由 存储 控制 器 将 写 缓冲 中 的 内 容 写 主 存 。 
写 缓冲 是 一 个 FIFO 队列 ,一 般 有 4 项 ,在 写 操作 频率 不 是 很 高 的 情况 下 ,因为 CPU 只 需 将 
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信息 写 人 快速 的 写 缓冲 而 无 须 写 慢 速 的 主 存 , 因 而 效果 较 好 。 但 是 ,如 果 写 操作 频繁 发 生 ， 
则 会 使 写 缓冲 饱和 而 发 生 阻塞 。 

2. 回 写法 

回 写法 (write back) 的 基本 做 法 是 : 当 CPU 执行 写 操作 时 , 若 写 命中 , 则 信息 只 被 写 人 
cache 而 不 被 写 人 主 存 ; 若 写 不 命中 , 则 在 cache 中 分 配 一 行 , 将 主 存 块 调 入 该 cache 行 中 并 
更 新 相应 单元 的 内 容 。 因 此 ,该 方式 下 在 写 不 命中 时 ,通常 采用 写 分 配 法 进行 写 操作 。 

由 此 可 见 , 回 写法 实际 上 采用 的 是 回头 再 写 或 最 后 一 次 性 写 的 做 法 ,因此 ,该 方式 通常 
被 称 为 回 写法 或 一 次 性 写 方式 ,也 有 教材 称 之 为 写 回 法 。 

在 CPU 执行 写 操作 时 , 回 写法 不 会 更 新 主 存单 元 ,只 有 当 cache 行 中 的 主 存 块 被 替换 
时 , 才 将 该 块 内 容 一 次 性 写 回 主 存 。 这 种 方式 的 好 处 在 于 减少 了 写 主 存 的 次 数 ,因而 大 大 降 
低 了 主 存 带 宽 需 求 。 为 了 减少 写 回 主 存 块 的 开销 ,每 个 cache 行 设置 了 一 个 修改 位 (dirty 
bit, 有 时 也 称 为 “ 脏 位 ?) 。 若 修改 位 为 1, 则 说 明 对 应 cache 行 中 的 主 存 块 被 修改 过 ,替换 时 
需要 写 回 主 存 ; 若 修改 位 为 0, 则 说 明 对 应 主 存 块 未 被 修改 过 ,替换 时 无 须 写 回 主 存 。 

由 于 回 写法 没有 同步 更 新 cache 和 主 存 内 容 , 所 以 存在 cache 和 主 存 内 容 不 一 致 而 带 来 
的 潜在 隐患 。 通 常 需要 其 他 的 同步 机 制 来 保证 存储 信息 的 一 致 性 。 


“7.6.6 cache 性 能 评估 


计算 机 性 能 最 直接 的 度量 方式 就 是 CPU 时 间 。 执 行 一 个 程序 所 花 的 CPU 时 间 应 该 
等 于 CPU 执行 时 间 和 等 待 主 存 访问 时 间 之 和 。 当 发 生 cache 缺失 时 ,需要 等 待 主 存 访问 ， 
此 时 ,CPU 处 于 阻塞 状态 。 因 此 : 

CPU 时 间 三 (CPU 执行 时 钟 数 十 cache 缺失 引起 阻塞 的 时 钟 数 ) XX 时钟 周 期 
cache 缺失 引起 阻塞 的 时 钟 数 三 读 操作 阻塞 时 钟 数 十 写 操作 阻塞 时 钟 数 
读 操作 阻塞 时 钟 数 = 程序 中 读 操作 次 数 X 读 缺失 率 X 读 缺失 损失 

对 于 写 操 作 来 说 ,情况 较 复杂 。 根 据 不 同 的 写 策略 ,其 阻塞 时 钟 数 的 计算 方式 不 同 。 

(1) 回 写 方式 下 ,替换 时 需要 一 次 性 写 回 一 个 块 , 故 会 产生 一 些 附 加 写 回 阻塞 。 

写 操作 阻塞 时 钟 数 王 程序 中 写 操作 次 数 X 写 缺失 率 X 写 缺失 损失 十 写 回 阻塞 

(2) 全 写 方式 下 ,包括 写 缺 失 阻塞 和 写 缓 冲 阻 塞 两 部 分 。 

写 操 作 阻塞 时 钟 数 二 程序 中 写 操作 次 数 X 写 缺失 率 X 写 缺失 损失 十 写 缓冲 阻塞 

假定 写 回 阻塞 和 写 缓冲 阻塞 忽略 不 计 , 则 可 将 读 操作 和 写 操作 综合 考虑 ,得 到 如 下 公式 : 

cache 缺失 引起 阻塞 的 时 钟 数 王 程序 中 访 存 次 数 X 缺 失 率 义 缺失 损失 
二 程序 的 指令 条 数 X (缺失 数 /指令 )X 缺 失 损 失 

例 7.10 假设 某 计算 机 中 只 有 一 级 cache, 并 将 指令 和 数据 分 别 存放 在 code cache 和 
data cache 中 。 其 code cache 和 data cache 的 缺失 率 分 别 为 1% 和 4%。 假 定 在 没有 任何 访 
存 阻塞 时 的 CPI 为 1 ,缺失 损失 (miss penalty) 为 200 个 时 钟 周期 。 假 定 访 存 指令 (Load 和 
Store) 的 使 用 频 度 为 36% , 则 使 用 缺失 率 为 0 的 cache 时 ,处 理 器 速度 会 快 多 少 ? 

解 : 假设 程序 运行 中 执行 指令 I 条 , 则 访问 指令 缺失 时 所 花 时 钟 周期 数 为 TX1% X 
200 王 2.0XT。 

已 知 访 存 指令 的 频 度 为 36%% ,所 以 访问 数据 缺失 时 所 花 时 钟 周 期 数 为 TX36%X4%X 
200==2. 88XI。 
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因为 一 条 指令 执行 过 程 中 取 指 令 和 访问 数据 总 是 串 行 进行 的 ,所 以 ,两 者 的 阻塞 时 钟 数 
应 该 相 加 , 即 指令 缺失 和 数据 缺失 时 的 总 阻塞 时 钟 周 期 数 为 2.0XI+2. 88XI=4. 88 X17， 
即 平均 每 条 指令 要 有 4. 88 个 时 钟 周期 处 在 访 存 阻塞 状态 ,因此 ,由 于 访 存 阻 塞 而 使 得 CPI 
数 从 没有 访 存 阻塞 时 的 1 增 大 到 1 十 4. 88 王 5. 88。 故 如 果 cache 不 发 生 缺 失 ( 即 缺失 率 为 
0) , 则 处 理 器 速度 会 快 5. 88/1==5. 88 售 。 

访 存 阻塞 所 花 时间 占 整个 执行 时 间 的 比例 为 4. 88/5. 88 守 83%。 

对 上 述 例子 进一步 分 析 , 可 以 得 到 处 理 器 的 性 能 与 cache 性 能 之 间 的 依赖 关系 。 分 以 
下 两 方面 来 考虑 。 

(1) 假设 上 例 中 没有 任何 访 存 阻 塞 时 CPI 为 2, 时 钟 宽度 不 变 , 则 访 存 阻塞 使 得 CPI 数 
从 2 增加 到 2 十 4. 88 王 6.88。 如 果 cache 不 发 生 缺 失 , 则 处 理 器 速度 会 快 6.88/2==3. 44 售 。 
访 存 阻塞 所 花 时 间 占 整个 执行 时 间 的 比例 为 4. 88/6.88~71% ,小 于 83%。 

因此 ,可 得 出 结论 : CPI 越 小 ,cache 缺失 引起 的 阻塞 对 系统 总 体 性 能 的 影响 越 大 。 

(2) 假定 上 例 中 时 钟 频率 加 倍 ,CPI 不 变 , 则 主 存 速度 不 太 可 能 改变 , 故 绝对 时 间 不 变 ， 
所 以 缺失 损失 变 为 400 个 时 钟 周期 。 

访问 指令 缺失 和 数据 缺失 时 引起 的 总 阻塞 时 钟 数 为 (1% X400) 十 36% X (4% X400)= 
9.76。 

因此 , 访 存 阻塞 使 得 CPI 数 从 1 增 大 到 1 十 9. 76 王 10. 76 ,由 于 时 钟 频 率 加 倍 , 所 以 , 相 
对 于 原 时 钟 频率 ,其 CPI 相当 于 只 有 一 半 。 由 此 可 知 : 时 钟 频率 快 的 机 器 的 性 能 只 是 较 慢 
的 机 器 的 5.88/(10. 76/2)s1. 1 倍 。 如 果 没 有 cache 缺失 ,应 该 是 两 倍 。 

由 此 可 得 出 结论 : CPU 时 钟 频率 越 高 ,cache 缺失 损失 就 越 大 。 

上 述 两 个 方面 的 例子 说 明 : 处 理 器 性 能 越 高 ,cache 的 性 能 就 越 重要 ! 


“7.6.7 影响 cache 性 能 的 因素 


决定 系统 访 存 性 能 的 重要 因素 之 一 是 cache 命中 率 , 它 与 许多 因素 有 关 。 前 面 曾 讲 过 ， 
命中 率 与 关联 度 有 关 , 同 时 和 cache 容量 也 有 关 。 显 然 ,cache 容量 越 大 ,命中 率 就 越 高 。 此 
外 ,命中 率 还 与 主 存 块 的 大 小 有 一 定 关系 。 采 用 大 的 交换 单位 能 很 好 地 利用 空间 局 部 性 ,但 
是 , 较 大 的 主 存 块 需要 花费 较 多 的 时 间 来 存 取 ,因此 ,缺失 损失 会 变 大 。 由 此 可 见 , 主 存 块 的 
大 小 必须 适中 ,不 能 太 大 ,也 不 能 太 小 。 

除了 上 述 提 到 的 这 些 因 素 外 ,设计 cache 时 ,还 要 考虑 采用 单 级 还 是 多 级 cache, 数据 
cache 和 指令 cache 是 分 开 还 是 合 在 一 起 , 主 存 - 总 线 -cache-CPU 之 间 采 用 什么 架构 等 ,甚至 
主 存 DRAM 芯片 的 内 部 结构 .存储 器 总 线 的 总 线 事务 类 型 等 也 都 与 cache 设计 有 关 , 都 会 
影响 系统 总 体 性 能 。 下 面 对 这 些 问 题 进行 简单 分 析 说 明 。 

1. 单 级 /多 级 cache、 联 合 /分 离 cache 的 选择 问题 

早期 采用 的 是 单 级 片 外 cache, 近 年 来 ,多 级 片 内 cache 系统 已 成 为 主流 , 即 目前 cache 
基本 上 都 在 CPU 芯片 内 , 且 使 用 L1 cache 和 L2 cache, 甚 至 有 L3 cache。 通 常 Ll cache 采 
用 分 离 cache, 即 数 据 cache 和 指令 cache 分 开设 置 。L2 cache 和 L3 cache 通常 为 联合 
cache 方 式 , 即 数据 和 指令 放 在 一 个 cache 中 。 

在 一 个 采用 两 级 cache 的 系统 中 ,CPU 总 是 先 访问 L1 cache, 若 访问 缺失 ,再 从 L2 
cache 中 找 。 若 L2 cache 包含 所 请 求 信 息 , 则 缺失 损失 为 L2 cache 的 访问 时 间 ,这 比 访问 主 
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存 要 快 得 多 ; 若 L2 cache 访问 缺失 , 则 需 从 主 存 取信 息 并 同时 送 Ll cache 和 L2 cache, 此 时 
的 缺失 损失 较 大 。 

在 多 级 cache 中 ,有 全 局 缺失 率 和 局 部 缺失 率 两 种 不 同 的 概念 。 全 局 缺失 率 是 指 在 所 
有 级 cache 中 都 缺失 的 访问 次 数 占 总 访问 次 数 的 比率 ;局 部 缺失 是 指 在 某 级 cache 中 缺失 的 
访问 次 数 占 对 该 级 cache 的 总 访问 次 数 的 比率 。 例 如 ,对 于 两 级 cache, 若 CPU 总 的 访 存 次 
数 为 100 ,在 Ll cache 命中 的 次 数 为 94, 剩 下 的 6 次 中 ,在 L2 cache 命中 的 次 数 为 5, 只 有 
1 次 需要 访问 主 存 , 则 全 局 缺失 率 为 1%,L1 cache 和 L2 cache 的 局 部 缺失 率 分 别 为 6% 和 
16.7%。 

由 于 多 级 cache 中 各 级 cache 所 处 的 位 置 不 同 , 使 得 对 它们 的 设计 目标 有 所 不 同 。 例 
如 ,假定 是 两 级 cache, 那 么 ,对 于 L1 cache, 通 常 更 关注 速度 而 不 要 求 有 很 高 的 命中 率 , 因 
为 ,即使 L1 cache 不 命中 ,还 可 以 到 L2 cache 中 访问 ,L2 cache 的 速度 比 主 存 速度 快 得 多 ; 
而 对 于 L2 cache, 则 要 求 尽量 提高 其 命中 率 ,因为 若 L2 cache 不 命中 , 则 必须 到 慢 速 的 主 存 
中 访问 ,其 缺失 损失 会 很 大 而 影响 总 体 性 能 。 

2. 主 存 -总 线 -cache 间 的 连接 结构 问题 

在 主 存 和 cache 之 间 传 输 的 单位 是 主 存 块 ,要 使 缺失 损失 最 小 ,必须 在 主 存 、 总 线 和 
cache 之 间 构 建 快速 的 传输 通道 。 什 么 样 的 连接 结构 才能 使 主 存 块 在 主 存 和 cache 之 间 的 
传输 速度 最 快 呢 ? 

为 了 计算 主 存 块 传送 到 cache 所 用 的 时 间 , 必 须 先 了 解 CPU 从 主 存 取 一 块 信息 到 
cache 的 过 程 。 从 主 存 读 一 块 数据 到 cache, 一 般 包 含 以 下 3 个 阶段 : 

(1) 发 送 地 址 和 读 命 令 到 主 存 : 假定 用 1 个 时 钟 周 期 。 

(2) 主 存 准 备 好 一 个 数据 : 假定 用 10 个 时 钟 周期 。 

(3) 从 总 线 传送 一 个 数据 : 假定 用 1 个 时 钟 周期 。 

主 存 ,总线 和 cache 之 间 可 以 有 3 种 连接 方式 : @ 窄 形 结构 , 即 在 主 存 、 总 线 和 cache 之 
间 每 次 按 一 个 字 的 宽度 进行 传送 ; @ 宽 形 结构 , 即 在 它们 之 间 每 次 传送 多 个 字 ; 加 交叉 存 
储 器 结构 , 主 存 采 用 多 模块 交叉 存 取 方式 ,总 线 和 cache 之 间 每 次 按 一 个 字 的 宽度 进行 传 
送 。 假 定 一 个 主 存 块 有 4 个 字 , 那 么 对 于 这 3 种 结构 ,其 缺失 损失 各 是 多 少 呢 ? 

图 7. 32 给 出 了 3 种 方式 下 的 主 存 块 传送 过 程 。 图 7. 32(a) 对 应 于 窗 型 结构 ,连续 进 
行 “ 送 地 址 - 读 出 -传送 ”4 次 ,每 次 一 个 字 , 其 缺失 损失 为 4X (1 十 10 十 1) 二 48 个 时 钟 周 

1 10 1 


第 1 个 字 FF 一 
10 1 


第 2 个 字 HH 一 HH 
第 3 个 字 1 10 1 
第 4 个 字 i 10 1 


(a) 罕 形 结构 对 应 的 块 传送 过 程 
1 10 
1 


1 
1 个 字 一 {| 
第 1 个 字 0 5 





前 2 个 字 上 一 上 一 + - Se | 10 1 
Rs 1 10 1 二 | 

后 2 个 字 FF 二 一 第 4 个 字 10 1 
(b) 宽 形 结构 对 应 的 块 传送 过 程 (c) 交叉 存储 结构 对 应 的 块 传送 过 程 


7.32 主 存 块 在 主 存 -总 线 -cache 之 间 的 传送 过 程 
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期 ;图 7.32(b) 对 应 于 宽度 为 2 个 字 的 宽 型 结构 ,连续 进行 “ 送 地 址 - 读 出 -传送 ?两 次 ,每 次 
两 个 字 ,其 缺失 损失 为 2X (1 十 10 十 1) 二 24 个 时 钟 周期 ;假定 宽 型 结构 的 宽度 为 4 个 字 ， 
则 只 要 进行 “ 送 地 址 - 读 出 -传送 ?一 次 ,其 缺失 损失 为 1X(C1 十 10 十 1) 王 12 个 时 钟 周期 ; 
图 7.32(c) 对 应 采用 4 体 交 叉 存 储 结 构 ,在 首 地 址 送出 后 ,每 隔 一 个 时 钟 周 期 启动 一 个 存 
储 模块 ,第 1 个 模块 用 10 个 时 钟 周 期 准备 好 第 1 个 字 , 然 后 在 总 线 上 传送 第 1 个 字 , 同 
时 ,第 2 个 模块 准备 好 第 2 个 字 ; 总 线 上 传输 第 2 个 字 的 同时 ,第 3 个 模块 准备 好 第 3 个 
字 ; 总 线 上 传输 第 3 个 字 的 同时 ,第 4 个 模块 准备 好 第 4 个 字 ; 最 后 总 线 传送 第 4 个 字 。 
因此 ,其 缺失 损失 为 1 十 1 X10 十 4X1==15 个 时 钟 周期 。 通 过 以 上 分 析 可 看 出 ,交叉 存储 
器 结构 的 性 价 比 最 好 。 

3. DRAM 结构 .总 线 事 务 类 型 与 cache 的 配合 问题 

指令 执行 过 程 中 , 若 发 生 cache 缺失 , 则 到 主 存 取 数据 或 指令 ,而 主 存 是 由 DRAM 芯片 
实现 的 ,并 且 每 次 缺失 时 ,要 从 DRAM 中 读 取 一 块 信息 到 cache。 因 此 ,如 何 合理 设计 
DRAM 结构 ,如 何 使 存储 器 总 线 在 一 次 总 线 事务 中 高 效 地 传输 一 个 主 存 块 等 ,都 是 需要 和 
cache 设计 统一 考虑 的 问题 。 

图 7.33 是 一 台 计 算 机 中 的 内 存 条 在 存储 器 总 线 上 的 排列 示意 图 ,图 7. 34 所 示 是 一 个 
内 存 条 上 DRAM 芯片 的 排列 示意 图 。 
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图 7.33 内 存 条 排列 示意 图 
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图 7.34 内 存 条 中 芯片 排列 示意 图 
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图 7. 33 所 示 的 存储 器 总 线 宽度 为 128 位 ,连接 在 其 上 的 每 个 内 存 条 一 次 最 多 能 读 出 
128 位 数据 。 每 个 内 存 条 上 排列 有 多 个 DRAM 芯片 ,如 图 7. 34 所 示 。 可 用 16 个 2Mb 的 
DRAM 芯片 配置 一 个 4 MB 的 内 存 条 ,每 个 芯片 内 有 一 个 512X8 的 SRAM 行 缓冲 ,16 个 
芯片 共 8KB 缓冲 。 每 个 芯片 有 512 行 X512 列 ,并 有 8 个 位 平面 ,每 次 读 写 各 芯片 内 同行 同 
列 的 8 位 ,16 个 芯片 共 16X8==128 位 。 当 CPU 访问 一 块 连续 的 主 存 区 域 ( 即 行 地 址 相同 
的 区 域 ) 时 ,可 直接 从 行 缓冲 读 取 , 行 缓 冲 用 SRAM 实现 ,速度 极 快 。 当 cache 缺失 而 要 求 
从 主 存 读 一 块 信息 到 cache 时 ,只 要 给 定 一 个 首 地 址 ,采用 突 发 传输 方式 就 可 以 在 一 次 总 线 
事务 中 完成 一 个 主 存 块 的 传输 。 特 别 是 当 采 用 DDR SDRAM、DDR2 SDRAM 或 DDR3 
SDRAM 芯片 时 ,在 芯片 内 部 采用 交叉 多 数据 预 取 ,并 在 存储 器 总 线 上 采用 时 钟 上 升 沿 和 下 
降 沿 各 传送 一 次 的 方式 ,使 得 从 主 存 到 cache 的 数据 块 传送 效率 更 高 。 


“7.6.8 cache 结构 欠 例 


现代 计算 机 系统 中 几乎 都 使 用 cache 机 制 ,下 面 以 Intel 公司 微 处 理 器 中 的 cache 为 例 
来 说 明 具 体 的 cache 结构 。 

Pentium 微 处 理 器 在 芯片 内 集成 了 一 个 代码 cache 和 一 个 数据 cache。 片 内 cache 采用 
2 路 组 相 联 结构 ,如 图 7. 35 所 示 , 共 128 组 ,每 组 2 行 , 每 行 8 个 双 字 9, 共 4X8=32 字 节 ， 
因此 每 路 有 4K 字 节 的 容量 , 共 8K 字 节 。 
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图 7.35 Pentium 处理 器 片 内 cache 结构 


@ IA-32 体系 结构 中 字 为 16 位 , 双 字 为 32 位 , 即 4 个 字 节 。 


着 储 器 分 层 余 系 结 欧 


片 内 cache 的 两 路 中 各 有 一 个 目录 表 , 每 个 表 有 128 个 记录 项 ,每 个 记录 项 由 20 位 的 
“标记 ”和 两 位 的 “状态 ”组 成 ,共有 4 种 不 同 状 态 , 用 于 cache 一 致 性 协议 ( 称 为 MESI 协 
议 ?)。 当 一 个 主 存 块 调 入 cache 后 ,就 将 其 32 位 地 址 中 的 高 20 位 标记 填 人 目录 表 中 对 应 
组 (目录 0 或 目录 1) 的 一 个 记录 项 中 。 片 内 cache 采用 LRU 替换 策略 ,每 组 有 一 个 LRU 
位 ,用 来 表示 该 组 哪 一 路 中 的 cache 行 被 蔡 换 。 数 据 cache 采用 回 写 策略 ,不 过 可 动态 重 构 
成 全 写 方式 。 另 外 ,Pentium 处 理 器 还 有 两 条 单独 的 指令 来 清除 或 回 写 cache。 

Pentium 处 理 器 支持 采用 片 外 的 二 级 cache。 片 外 L2 cache 可 配置 为 256KB 或 
512KB, 也 采用 两 路 组 相 联 方式 ,每 行 有 32、64 或 128 字 节 。 

Pentium 4 处 理 器 芯片 内 集成 了 一 个 L2 cache 和 两 个 Ll1 cache。L2 cache 是 联合 
cache, 数 据 和 指令 存放 在 一 起 ,所 有 从 主 存 获 取 的 指令 和 数据 都 先 送 到 L2 cache 中 。 它 有 
3 个 端口 ,一 个 对 外 ,两 个 对 内 。 对 外 的 端口 通过 预 取 控制 逻辑 和 总 线 接口 部 件 与 处 理 器 总 
线 相 连 , 用 来 和 主 存 交换 信息 ;对 内 的 端口 中 ,一 个 以 256 位 位 宽 与 L1 数据 cache 相连 ; 另 
一 个 以 64 位 位 宽 与 指令 预 取 部 件 相连 ,由 指令 预 取 部 件 取出 指令 , 送 指令 译 码 器 ,指令 译 码 
器 再 将 指令 转换 为 微 操作 序列 , 送 到 指令 cache 中 ,Intel 公司 称 该 指令 cache 为 踪迹 高 速 组 
存 (Trace Cache,TC) ,其 中 存放 的 并 不 是 指令 ,而 是 指令 对 应 的 微 操作 序列 。 有 关 细 节 可 
参考 6.4.3 节 。 

Intel Core i7 采用 的 cache 结构 如 图 7. 36 所 示 , 每 个 核 内 有 各 自私 有 的 L1 cache 和 
L2 cache。 其 中 ,L1 指令 cache 和 数据 cache 都 是 32KB 数据 区 , 缘 为 8 路 组 相 联 , 存 取 时 间 
都 是 4 个 时 钟 周 期 ;L2 cache 是 联合 cache, 共 有 256KB 数据 区 ,8 路 组 相 联 , 存 取 时 间 是 
11 个 时 钟 周期 该 多 核 处 理 器 中 还 有 一 个 供 所 有 核 共享 的 L3 cache, 其 数据 区 大 小 为 
8MB,16 路 组 相 联 , 存 取 时 间 是 30 一 40 个 时 钟 周期 。Intel Core i7 中 所 有 cache 的 块 大 小 
都 是 64B。 
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图 7.36 Intel Core i7 处 理 器 的 cache 结构 


四 MESI 协议 用 于 解决 cache 一 致 性 问题 ,将 每 个 cache 行 的 状态 分 为 更 新 (Modified)、 独 占 (Exclusive) 共享 
(Shared) 无 效 (Invalid)4 种 ,通过 对 状态 转换 进行 控制 来 实现 数据 的 一 致 性 。 更 新 表示 在 cache 行 中 的 信息 已 被 修改 
过 ;独占 表示 在 其 他 cache 中 没有 副本 ;共享 表示 在 其 他 cache 中 有 副本 ;无 效 表示 cache 行 的 信息 无 效 , 是 空闲 行 ,可 存 
放 新 的 主 存 块 。 
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7.7 虚拟 存储 器 


目前 计算 机 主 存 主要 由 DRAM 芯片 构成 ,由 于 技术 和 成 本 等 原因 , 主 存 的 存储 容量 受 
到 限制 ,并 且 各 种 不 同 计算 机 所 配置 的 物理 内 存 容量 多 半 也 不 相同 ,而 程序 设计 时 人 们 显然 
不 希望 受到 特定 计算 机 的 物理 内 存 大 小 的 制约 ,因此 ,如 何 解 决 这 两 者 之 间 的 矛盾 是 需要 解 
决 的 一 个 重要 问题 ;此 外 ,现代 操作 系统 都 支持 多 道 程序 运行 ,如 何 让 多 个 程序 有 效 而 安全 
地 共享 主 存 是 需要 解决 的 另 一 个 问题 。 

为 了 解决 上 述 两 个 问题 ,在 计算 机 中 采用 了 虚拟 存储 技术 : 程序 员 在 一 个 不 受 物理 内 
存 空间 限制 并 且 比 物理 内 存 空 间 大 得 多 的 虚拟 的 逻辑 地 址 空间 中 编写 程序 ,就 好 像 每 个 程 
序 都 独立 拥有 一 个 巨大 的 存储 空间 一 样 。 程 序 执行 过 程 中 ,把 当前 执行 到 的 一 部 分 程序 和 
相应 的 数据 调 入 主 存 ,其 他 暂 不 用 的 部 分 暂时 存放 在 磁盘 上 。 这 种 借用 外 存 为 程序 提供 的 
很 大 的 虚拟 存储 空间 称 为 虚拟 存储 器 。 

指令 执行 时 ,通过 硬件 将 指令 中 的 逻辑 地 址 (也 称 虚拟 地 址 或 虚 地 址 ) 转 化 为 主 存 的 物 
理 地 址 (也 称 主 存 地 址 或 实地 址 ) ,在 地 址 转换 过 程 中 检查 是 否 发 生 访问 信息 缺失 、 地 址 越界 
或 访问 越权 , 若 发 生 信息 缺失 , 则 由 操作 系统 进行 主 存 和 磁盘 之 间 的 信息 交换 。 若 发 生地 址 
越界 或 访问 越权 , 则 由 操作 系统 进行 存储 访问 的 异常 处 理 。 由 此 可 以 看 出 ,虚拟 存储 技术 既 
解决 了 编程 空间 受 限 的 问题 ,又 解决 了 多 道 程 序 共享 主 存 带 来 的 安全 等 问题 。 

虚拟 存储 器 机 制 由 硬件 与 操作 系统 共同 协作 实现 ,涉及 计算 机 系统 许多 层面 ,包括 操作 
系统 中 的 许多 概念 ,如 进程 、 进 程 的 上 下 文 切换 、 存 储 器 管理 虚拟 地 址 空间 、 缺 页 处 理 等 。 
因此 ,下 面 从 操作 系统 的 有 关 概 念 开 始 介绍 。 


“7.7.1 进程 与 进程 的 上 下 文 切换 


用 户 程序 通过 操作 系统 中 的 进程 .虚拟 存储 器 和 文件 等 机 制 使 用 硬件 资源 ,使 得 每 个 用 
户 程序 在 运行 时 产生 错觉 ,以 为 所 有 系统 资源 都 被 自己 独占 使 用 , 且 处 理 器 始终 执行 本 程序 
的 一 条 条 指令 。 

进程 是 操作 系统 对 处 理 器 中 运行 的 程序 的 一 种 抽象 。 现 代 多 任务 操作 系统 中 ,通常 可 
同时 运行 很 多 进程 ,但 每 个 进程 都 好 像 自 己 独占 使 用 计算 机 资源 。 实 际 上 ,操作 系统 通过 处 
理 器 调度 让 处 理 器 交替 执行 多 个 进程 中 的 指令 ,实现 不 同 进程 中 指令 交替 执行 的 机 制 称 为 
上 下 文 切换 (context switching) 。 

进程 的 实体 (如 代码 和 数据 等 ) 和 支持 进程 运行 的 环境 合 称 为 进程 的 上 下 文 。 由 用 户 进 
程 的 程序 块 、 数 据 块 和 堆栈 等 组 成 的 用 户 区 地 址 空间 ,被 称 为 用 户 级 上 下 文 ;由 进程 标识 信 
息 \ 现 场 信息 、 控 制 信息 和 系统 内 核 栈 等 组 成 的 系统 区 地 址 空间 ,被 称 为 系统 级 上 下 文 ;此 
外 ,还 包括 处 理 器 中 各 个 寄存 器 的 内 容 ,被 称 为 寄存 器 上 下 文 。 在 进行 进程 上 下 文 切换 时 ， 
操作 系统 把 换 下 进程 的 寄存 器 上 下 文保 存 到 系统 级 上 下 文 的 现场 信息 位 置 。 用 户 级 上 下 文 
地 址 空间 和 系统 级 上 下 文 地 址 空间 一 起 构成 了 一 个 进程 的 整个 存储 器 映像 ,如 图 7. 37 
所 示 。 

以 下 是 经 典 的 hello. c 程序 : 


1 #include <stdio.h> 


着 储 器 分 层 余 系 结 欧 
第 


~ 


int main() 
{ 章 


printf ("hello, world\n"); 


ao 心 w N 


} 


对 于 上 述 高 级 语言 源 程序 ,首先 需 先 对 其 进行 预 处 理 、 编 译 成 汇编 语言 表示 ,然后 再 用 
汇编 程序 将 其 转换 为 可 重 定位 的 二 进 制 目标 程序 ,再 和 库 函 数目 标 文件 printf. o 进行 链接 ， 
生成 最 终 的 可 执行 目标 文件 hello。 

假定 在 UNIX 系统 上 启动 hello 程序 ,其 shell 命令 行 和 hello 程序 运行 的 结果 如 下 。 


unix>./hello [Enter] 
hello, world 


unix> 

上 下 文 切 换 指 把 正在 运行 的 进程 换 下 , 换 一 个 新 进程 到 处 理 器 执行 。 图 7. 38 给 出 了 上 
述 shell 命令 行 执行 过 程 中 shell 进程 和 hello 进程 的 上 下 文 切换 过 程 。 首 先 运行 shell 进 
程 ,从 shell 命令 行 中 读 和 人 字符 串 “. /hello” 到 主 存 ; 当 shell 进程 读 到 字符 “LEnter]j”( 回 车 ) 
后 , 转 到 操作 系统 执行 ,由 操作 系统 进行 上 下 文 切换 ,以 保存 shell 进程 的 上 下 文 并 创建 
hello 进程 的 上 下 文 ;hello 进程 执行 结束 后 ,再 转 到 操作 系统 完成 将 控制 权 从 hello 进程 交 
回 给 shell 进程 。 
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图 7.37 进程 的 存储 映像 图 7.38 进程 上 下 文 切换 示例 


从 上 述 过 程 可 以 看 出 ,在 一 个 进程 的 整个 生命 周期 中 ,可 能 会 有 其 他 不 同 的 进程 在 处 理 
器 中 交替 运行 ,所 以 ,对 于 每 个 进程 的 运行 时 间 很 难 准 确 、 重 复 测量 。 这 就 是 第 1 章 介 绍 性 
能 评价 时 提 到 的 性 能 测量 问题 的 难点 所 在 。 


“7.7.2 存储 器 管理 


早期 计算 机 采用 单 道 程序 执行 方式 ,系统 的 主 存 中 仅 包含 操作 系统 (也 称 常 驻 监控 程 
序 ) 和 正在 执行 的 一 个 用 户 程 序 , 所 以 无 须 进行 存储 管理 ,即使 有 也 很 简单 。 

现代 计算 机 多 采用 多 道 程序 执行 方式 ,系统 的 主 存 中 包含 操作 系统 和 若干 个 用 户 程序 。 
如 果 在 主 存 中 进程 数 很 少 , 则 当 所 有 进程 都 需要 等 待 I/O 时 ,处 理 器 就 处 于 空闲 状态 。 因 
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此 ,需要 对 主 存 进行 合理 分 配 , 尽 可 能 让 更 多 的 进程 进入 主 存 , 以 便 最 大 限度 地 利用 处 理 器 

在 多 道 程序 系统 中 , 主 存储 器 的 用户” 区 需 进 一 步 划 分 给 多 个 进程 。 划 分 的 任务 由 操 
作 系 统 动态 执行 ,被 称 为 存储 器 管理 (memory management) 。 

早期 经 常 采 用 交换 (exchange) 技 术 来 使 系统 中 尽量 多 地 调 人 用 户 程序 。 其 基本 思想 
是 : 当主 存 中 没有 处 于 就 绪 状 态 的 进程 (例如 , 某 一 时 刻 所 有 进程 都 在 等 待 IO) 时 ,操作 系 
统 将 一 些 进 程 调 出 写 回 到 磁盘 ,然后 再 调 入 其 他 进程 来 执行 。 

分 区 (partitioning) 和 分 页 (paging) 是 交换 技术 的 两 种 实现 方式 。 

1. 分 区 方式 

分 区 方式 将 主 存 分 为 两 大 区 域 : 系统 区 固定 在 一 个 地 址 范围 内 ,存放 操作 系统 ;用 户 区 
用 于 存放 所 有 用 户 程 序 。 对 于 用 户 区 的 分 配 有 简单 固定 分 区 (fixed-size partition) 和 可 变 长 
分 区 (variable-length partition) 两 种 方式 。 

简单 固定 分 区 的 基本 思想 为 : 使 用 长 度 不 等 的 固定 长 分 区 , 当 一 个 进程 调 入 主 存 时 ,分 
配 一 个 能 容纳 它 的 最 小 分 区 给 它 。 例 如 ,在 图 7. 39(a) 所 示 的 情况 下 ,对 于 一 个 需要 196KB 
的 进程 , 则 将 分 区 256KB 分 配给 它 。 多 数 情况 下 ,进程 对 分 区 大 小 的 需求 不 可 能 和 提供 的 
分 区 大 小 一 样 ,因而 ,采用 固定 长 度 分 区 会 大 大 浪费 主 存 空间 。 
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图 7.39 分 区 存储 管理 方式 


比 简单 固定 分 区 更 有 效 的 方式 是 动态 可 变 长 分 区 ,其 分 配 的 分 区 大 小 与 进程 所 需 大 小 
一 样 。 例 如 ,在 图 7.39(b) 所 示 的 情况 下 ,初始 时 , 主 存 除了 操作 系统 占据 的 空间 外 ,其 余 空 
闲 ; 把 3 个 进程 调 入 主 存 ,假定 从 操作 系统 末端 开始 装 人 ,结果 在 存储 器 末端 留 下 一 个 很 小 
的 “ 空 ” 块 。 因 为 它 很 小 ,不 能 装 人 第 4 个 进程 。 因 此 ,将 进程 2 交换 出 来 ,此 时 ,空间 足够 分 
配给 进程 4, 但 由 于 进程 4 的 长 度 小 于 进程 2 的 长 度 ,分 配 后 又 产生 了 男 一 块 “ 空 ” 块 。 

由 此 可 见 , 可 变 长 分 区 方式 开始 时 情况 较 好 ,但 最 后 在 存储 器 中 可 能 会 有 许多 小 空 块 出 
现 。 时 间 越 长 ,存储 器 中 的 碎片 就 会 越 多 ,因而 存储 器 的 利用 率 下 降 。 

不 管 是 固定 分 区 还 是 可 变 长 分 区 ,都 会 在 主 存 形成 不 能 被 利用 的 “碎片 ”。 固 定 分 区 方 
式 在 分 区 内 产生 “内 碎片 ”, 而 可 变 长 分 区 方式 在 分 区 之 间 产 生 “ 外 碎片 ”通过 移动 进程 将 
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“碎片 ”合并 可 提高 主 存 利用 率 ,但 会 带 来 处 理 器 的 额外 时 间 开 销 , 并 且 , 进 程 移动 时 要 进行 
重 定位 ,增加 了 重 定位 硬件 开销 。 因 此 ,分 区 方式 不 是 解决 多 道 程序 运行 的 有 效 办 法 ,现代 
多 任务 操作 系统 已 较 少 使 用 这 种 方法 。 

2. 分 页 方式 

分 页 方式 的 基本 思想 是 : 把 主 存 分 成 固定 长 且 比 较 小 的 存储 块 , 称 为 页 框 (page 
frame) ,每 个 进程 也 被 划分 成 固定 长 的 程序 块 , 称 为 页 (page) ,程序 块 被 装 到 可 用 的 存储 块 
中 ,并 且 无 需 用 连续 页 框 来 存放 一 个 进程 。 程 序 运 行 时 装 人 内 存 页 框 的 过 程 对 程序 员 是 透 
明 的 ,因为 程序 员 不 需要 知道 程序 运行 时 具体 会 装 到 哪些 页 框 , 因 而 程序 给 出 的 指令 和 数据 
的 地 址 不 是 真正 的 主 存 物理 地 址 ,程序 员 是 在 一 个 虚拟 的 逻辑 地 址 空间 中 编写 程序 ,通常 把 
程序 中 所 用 的 地 址 称 为 虚拟 地 址 (virtual address) 或 逻辑 地 址 (logical address) ,而 真正 访问 
的 主 存 地 址 称 为 物理 地 址 (physical address) 或 实地 址 。 操 作 系 统 在 进行 存储 器 分 配 时 , 通 
过 页 表 (page table) 建 立 页 和 页 框 之 间 的 映射 关系 ,每 个 进程 有 一 个 页 表 , 通 过 页 表 实 现 虚 
拟 地 址 向 物理 地 址 的 转换 。 

早期 的 分 页 方式 将 一 个 进程 的 所 有 页 面 都 调 入 主 存 , 只 是 不 像 分 区 方式 那样 占用 一 块 
连续 的 物理 内 存 ,所 以 对 主 存 的 利用 率 比分 区 方式 好 ,浪费 的 空间 最 多 是 最 后 一 页 的 一 部 
分 。 但 是 , 它 并 没有 很 好 地 利用 程序 访问 的 局 部 性 特点 。 根 据 程序 访问 的 局 部 性 可 知 , 在 一 
个 进程 的 所 有 页 面 中 ,只 有 当前 所 访问 的 那个 单元 所 在 页 面 及 邻近 页 面 才 是 最 近 经 常 要 访 
问 的 ,早期 分 页 方式 将 一 个 进程 的 所 有 页 面 都 装 和 人 主 存 ,使 有 限 的 页 框 资源 被 一 些 不 活跃 的 
页 占用 了 ,因而 浪费 了 主 存 。 为 此 ,现代 操作 系统 中 采用 了 “请 求 分 页 ”(demand paging) 的 
分 页 式 虚拟 存储 管理 方式 ,所 谓 “ 请 求 分 页 ?就 是 只 将 当前 需要 的 页 面 装 人 主 存 页 框 中 ,而 不 
需要 的 页 面 则 存放 在 外 存 中 。 这 就 是 现代 计算 机 采用 的 “虚拟 存储 器 ”(virtual memory) 存 
储 管理 的 基本 思想 。 


7.7.3 虚拟 地 址 空间 


虚拟 存储 器 管理 方式 采用 “请 求 分 页 ”思想 ,每 次 访问 仅 将 当前 需要 的 页 面 调 入 主 存 , 而 
进程 中 其 他 不 活跃 的 页 面 放 在 外 存 磁 盘 上 。 当 访问 某 个 信息 所 在 页 不 在 主 存 时 发 生 缺 页 ， 
此 时 ,从 磁盘 将 缺失 页 面 调 人 主 存 。 

虚拟 存储 器 机 制 为 程序 员 提 供 了 一 个 极 大 的 虚拟 (逻辑 ) 地 址 空间 , 它 是 主 存 和 磁盘 
IO 设备 的 抽象 。 虚 存 机 制 给 每 个 进程 带 来 了 一 个 假象 ,好 像 每 个 进程 都 独占 使 用 主 存 , 并 
且 主 存 空间 极 大 。 它 带 来 了 3 个 好 处 : 

(1) 每 个 进程 具有 一 致 的 虚拟 地 址 空间 ,从 而 可 以 简化 存储 管理 。 

(2) 它 把 主 存 看 成 是 磁盘 存储 器 的 一 个 缓存 ,在 主 存 中 仅 保存 当前 活动 的 程序 段 和 数 
据 区 ,并 根据 需要 在 磁盘 和 主 存 之 间 进 行 信息 交换 ,通过 这 种 方式 ,使 有 限 的 主 存 空间 得 到 
了 有 效 利 用 。 

(3) 每 个 进程 的 虚拟 地 址 空间 是 私有 的 ,因此 ,可 以 保护 各 自 进 程 不 被 其 他 进程 破坏 。 

虚拟 存储 器 机 制 中 ,每 个 源 程序 经 编译 、 汇 编 、 链 接 等 处 理 生 成 可 执行 的 二 进 制 机 器 目 
标 代码 时 ,每 个 程序 的 目标 代码 都 被 映射 到 同样 的 虚拟 地 址 空间 ,因此 ,所 有 用 户 进程 的 虚 
拟 地 址 空间 是 一 致 的 。 

例如 ,图 7. 40 给 出 了 在 Linux 操作 系统 下 hello 程序 的 一 个 进程 对 应 的 虚拟 地 址 空间 
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映像 。 它 分 为 两 大 部 分 : 内 核 区 (kernel area) 和 用 户 区 (user area) 。 



































OxFFFFFFFF 和 用 户 代 码 
0xC0000000 人 | 不 可 见 区 
人 他 
(运行 时 创 )》 
站 一 “村 指 针 
共享 库 的 存储 映射 区 。 | Printf ) 男 数 
0x40000000 所 在 区 域 
动态 生成 的 堆 
(运行 时 由 malloc 创 建 ) 
可 读 写 数据 
从 hello 可 执行 文件 
只 读数 据 和 代码 装 入 的 数据 及 代码 
0x08048000 
未 使 用 区 











7.40 ”Linux 虚拟 地 址 空间 


内 核 区 在 0xC0000000 以 上 的 高 端 地 址 上 ,用 来 存放 操作 系统 内 核 代 码 和 数据 以 及 与 
每 个 进程 相关 的 数据 结构 (如 进程 标识 信息 、 进 程 现场 信息 、 页 表 等 进程 控制 信息 以 及 内 核 
栈 等 ) ,其 中 内 核 代 码 和 数据 区 在 每 个 进程 的 地 址 空间 中 都 相同 。 用 户 程 序 没有 权限 访问 内 
核 区 。 

用 户 区 用 来 存放 用 户 进程 的 代码 和 数据 , 它 又 被 分 为 以 下 几 个 区 域 。 

(1) 用 户 栈 (user stack)。 用 来 存放 程序 运行 时 过 程 调用 的 参数 、 返 回 值 .返回 地 址 、 过 程 
局 部 变量 等 , 随 着 程序 的 执行 ,该 区 会 不 断 动态 地 从 高 地 址 向 低地 址 增长 或 向 反方 向 减退 。 

(2) 共享 库 (shared library) 。 用 来 存放 公共 的 共享 函数 库 代 码 , 如 hello 中 的 printf( ) 
函数 等 。 

(3) 堆 (heap) 。 用 于 动态 申请 存储 区 ,例如 ,C 语言 中 用 malloc( ) 函数 分 配 的 存储 区 ， 
或 C++ 中 用 new 操作 符 分 配 的 存储 区 。 申 请 一 块 内 存 时 ,动态 地 从 低地 址 向 高 地 址 增长 ， 
用 free( ) 函 数 或 delete 操作 符 释 放 一 块 内 存 时 ,动态 地 从 高 地 址 向 低地 址 减退 。 

(4) 可 读 写 数据 区 。 存 放 用 户 进程 中 的 静态 全 局 变量 , 堆 区 从 该 区 域 的 结尾 处 开始 向 
高 地 址 增长 。 

(5) 只 读数 据 和 代码 区 。 存 放 用 户 进程 中 的 代码 和 只 读数 据 , 如 hello 进程 中 的 程序 代 
码 和 字符 串 “hello,world\n”。 

每 个 区 域 都 有 相应 的 起 始 位 置 , 堆 区 和 栈 区 相向 生长 , 栈 区 从 内 核 起 始 位 置 
0xC0000000 开始 向 低地 址 增长 ,堆栈 中 的 共享 库 代 码 区 从 0x40000000 开始 向 高 地 址 增长 。 
代码 和 只 读数 据 区 从 0x08048000 开始 向 高 地 址 增长 。 

为 了 便于 对 存储 空间 的 管理 和 存储 保护 ,在 规划 存储 映像 时 ,通常 将 系统 内 核 和 用 户 进 
程 分 配 在 两 端 不 同 的 区 域 。 在 用 户 进程 区 又 把 动态 区 和 静态 区 分 在 两 端 ,动态 区 中 又 把 过 
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程 调用 时 的 动态 局 部 信息 ( 栈 区 ) 和 动态 分 配 的 内 存 区 ( 堆 区 ) 分 在 两 端 ,静态 区 中 又 把 可 读 
写 区 和 只 读 区 分 在 两 端 。 这 样 的 存储 映像 ,便于 每 个 区 域 的 访问 权限 设置 ,因而 便于 存储 保 
护 和 存储 管理 。 

从 图 7. 40 可 以 看 出 ,一 个 进程 的 虚拟 地 址 空间 中 有 一 些 “ 空 洞 "。 例 如 , 堆 区 和 栈 区 都 
是 动态 生长 的 ,因而 在 栈 和 共享 库 映 射 区 之 间 、 堆 和 共享 库 映 射 区 之 间 都 可 能 没有 内 容 存 
在 ,这 些 没有 和 任何 内 容 相 关联 的 页 称 为 “未 分 配 页 ”; 代 码 和 数据 等 有 内 容 的 区 域 所 关联 的 
页 面 称 为 “已 分 配 页 ”。 已 分 配 页 中 又 有 两 类 : 已 调 入 主 存 而 被 缓存 在 DRAM 中 的 页 面 称 
为 “缓存 页 ”; 未 调和 主 存 而 存在 磁盘 上 的 页 被 称 为 “未 缓存 页 ”。 因 此 ,任何 时 刻 一 个 进程 中 
的 所 有 页 面 都 被 划分 成 3 个 不 相交 的 页 面 集合 : 未 分 配 页 集合 .缓存 页 集合 和 未 缓存 页 
集合 。 


7.7.4 虚拟 存储 器 的 实现 


对 照 前 面 介 绍 的 cache 机 制 (cache 是 主 存 的 缓存 ) ,可 以 把 DRAM 构成 的 主 存 看 成 是 
磁盘 存储 器 的 缓存 。 因 此 ,要 实现 虚拟 存储 器 机 制 ,也 必须 考虑 交换 块 ( 即 页 面 ) 大 小 问题 、 
映射 问题 .替换 问题 、 写 一 致 性 问题 等 。 

在 cache(SRAM) 中 缓存 的 是 主 存 块 ,而 在 主 存 (DRAM) 中 缓存 的 是 虚拟 页 面 ,也 就 是 
磁盘 中 的 程序 块 或 数据 块 。DRAM 比 SRAM 大 约 慢 10 倍 , 而 磁盘 比 DRAM 大 约 慢 
100 000 多 倍 , 因 此 ,进行 缺 页 处 理 所 花 的 代价 要 比 cache 缺失 损失 大 得 多 。 而 且 , 根 据 磁盘 
的 特性 ,磁盘 扇 区 定位 所 花 的 时 间 要 比 磁 盘 读 写 一 个 数据 的 时 间 长 大 约 100 000 倍 , 即 对 扇 
区 第 一 个 数据 的 读 写 比 随后 数据 的 读 写 要 慢 100 000 倍 。 考 虑 到 缺 页 代价 的 巨大 和 磁盘 访 
问 第 一 个 数据 的 开销 ,通常 将 主 存 和 磁盘 之 间 的 交换 页 面 设 定 得 比较 大 , 比 在 cache 和 主 存 
之 间 交 换 的 主 存 块 大 得 多 ,典型 的 有 4KB 和 8KB 等 ,而 且 有 越 来 越 大 的 趋势 。 

缺 页 处 理 代价 较 大 ,提高 命中 率 是 关键 ,因此 ,在 主 存 页 框 和 虚拟 页 之 间 采 用 全 相 联 映 
射 方 式 。 此 外 , 当 进 行 写 操作 时 ,由 于 磁盘 访问 速度 很 慢 ,所 以 ,不 能 每 次 写 操 作 都 同时 写 
DRAM 缓存 和 磁盘 ,因而 ,在 处 理 一 致 性 问题 时 ,采用 回 写 (write back) 方 式 , 而 不 用 全 写 
(write through) 方 式 。 

因为 在 虚拟 存储 机 制 中 采用 全 相 联 映射 ,所 以 每 个 虚拟 页 可 以 存放 到 对 应 主 存 区 域 的 
任何 一 个 空闲 页 位 置 。 因 此 ,与 cache 一 样 ,虚拟 存储 器 机 制 必须 要 有 一 种 方法 来 确定 每 个 
进程 的 各 个 页 面 所 存放 的 对 应 主 存 位 置 或 磁盘 位 置 。 根 据 对 此 问题 解决 方法 的 不 同 ,虚拟 
存储 器 分 成 3 种 不 同类 型 : 分 页 式 、 分 段 式 和 段 页 式 。 

1. 分 页 式 虚 拟 存储 器 

在 分 页 式 虚拟 存储 系统 中 , 主 存储 器 和 虚拟 地 址 空间 都 被 划分 成 大 小 相等 的 页 面 ,磁盘 
和 主 存 之 间 按 页 面 为 单位 交换 信息 。 通 常 把 虚拟 地 址 空间 中 的 页 面 称 为 虚拟 页 、 人 逻辑 页 或 
虚 页 ; 主 存 空 间 中 的 页 面 被 称 为 页 框 (页 帧 )、 物 理 页 或 实 页 。 有 时 虚拟 页 简称 为 VP 
(Virtual Page) ,物理 页 简称 为 PF(Page Frame) 或 PP(Physical Page)。 对 于 这 些 概念 的 名 
称 ,不 同 教材 的 说 法 可 能 不 同 , 但 含义 是 一 样 的 。 

1) 页 表 

为 了 对 每 个 虚拟 页 的 存放 位 置 . 存 取 权 限 、 使 用 情况 ,修改 情况 等 进行 说 明 ,操作 系统 在 
主 存 中 给 每 个 进程 都 生成 了 一 个 页 表 (Page Table) ,每 个 虚拟 页 在 页 表 中 都 有 一 个 对 应 表 
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项 , 表 项 内 容 包 括 该 虚拟 页 的 存放 位 置 . 装 人 位 (valid) ,修改 位 (dirty) ,使 用 位 (替换 控制 
位 ) . 存 取 权 限 位 和 禁止 缓存 位 等 。 

页 表 项 中 的 存放 位 置 字段 用 来 建立 虚拟 页 和 物理 页 之 间 的 映射 ,用 于 进行 虚拟 地 址 到 
物理 地 址 的 转换 。 装 人 位 也 称 为 有 效 位 或 存在 位 ,用 来 表示 对 应 页 面 是 否 在 主 存 , 若 为 1， 
表示 该 虚拟 页 已 从 外 存 调 人 主 存 ,是 一 个 “缓存 页 ”, 此 时 ,存放 位 置 字段 指向 主 存 页 框 号 ( 即 
物理 页 号 或 实 页 号 ) ;车 为 0, 则 表示 没有 被 调 人 主 存 , 此 时 , 若 存 放 位 置 字段 为 null, 则 说 明 
是 一 个 “未 分 配 页 ”, 和 否则 是 一 个 “未 缓存 页 ”, 其 存放 位 置 字段 给 出 该 虚拟 页 在 磁盘 上 的 起 始 
地 址 。 修 改 位 用 来 说 明 页 面 是 否 被 修改 过 , 虚 存 机 制 中 采用 回 写 策略 ,利用 修改 位 可 判断 替 
换 时 是 否 需 写 回 磁盘 。 使 用 位 (替换 控制 位 ) 用 来 说 明 页 面 的 使 用 情况 ,配合 替换 策略 来 设 
置 ,例如 ,是 否 最 先 调 人 (FIFO 位 ), 是 否 最 近 最 少 用 (LRU 位 ) 等 。 存 取 权 限 位 用 来 说 明 页 
面 是 可 读 可 写 、 只 读 还 是 只 可 执行 等 ,用 于 存储 保护 。 禁 止 缓存 位 用 来 说 明 页 面 是 否 可 以 装 
入 cache, 通 过 正确 设置 该 位 ,可 以 保证 磁盘 、 主 存 和 cache 数据 的 一 致 性 。 图 7. 41 给 出 了 
一 个 页 表 的 示例 ,其 中 ,有 4 个 缓存 页 : VP1、VP2、VP5 和 VP7; 两 个 未 分 配 页 : VP0 和 
VP4; 两 个 未 缓存 页 : VP3 和 VP6 。 

主 存 (DRAM) 
VP1 PP0 
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页 表 ( 主 存 中 ) 























图 7.41 主 存 中 的 页 表示 例 


对 于 图 7.41 所 示 的 页 表 , 假 如 CPU 执行 一 条 指令 要 求 访问 某 个 数据 , 若 该 数据 正好 在 
虚拟 页 VP1 中 , 则 根据 页 表 得 知 ,VP1 对 应 的 装 入 位 为 1, 该 页 的 信息 存放 在 物理 页 PP0 
中 ,因此 ,可 通过 地 址 转换 部 件 将 虚拟 地 址 转换 为 物理 地 址 ,然后 到 PP0 中 访问 该 数据 ; 若 
该 数据 在 VP6 中 , 则 根据 页 表 得 知 ,VP6 对 应 的 装 入 位 为 0, 表示 页 面 缺 失 , 发 生 “ 缺 页 ” 异 
常 ,需要 调 出 操作 系统 的 “ 缺 页 ”异常 处 理 程序 进行 处 理 。“ 缺 页 ”异常 处 理 程序 根据 页 表 中 
VP6 对 应 表 项 的 存放 位 置 字段 ,从 磁盘 中 将 所 缺失 的 页 面 读 出 ,然后 找 一 个 空闲 的 物理 页 
框 存放 该 页 信息 。 若 主 存 中 没有 空闲 的 页 框 , 则 还 要 选择 一 个 页 面 淘汰 出 来 替换 到 磁盘 上 。 
因为 采用 回 写 策略 ,所 以 页 面 淘汰 时 , 需 根 据 修 改 位 确定 是 否 要 写 回 磁盘 。 缺 页 处 理 过 程 中 
需要 对 页 表 进 行 相应 的 更 新 , 缺 页 异常 处 理 结束 后 ,程序 回 到 原来 发 生 缺 页 的 指令 继续 
执行 。 

对 于 图 7. 41 所 示 的 页 表 ,虚拟 页 VP0 和 VP4 是 未 分 配 页 ,但 随 着 进程 的 动态 执行 ,可 
能 会 使 这 些 未 分 配 页 中 有 了 具体 的 数据 。 例 如 ,调用 malloc 也 数 会 使 堆 区 增长 ,车 新 增 的 
堆 区 正好 与 VP4 对 应 , 则 操作 系统 内 核 就 在 磁盘 上 分 配 一 个 存储 空间 给 VP4 ,用 于 存放 新 
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增 堆 区 中 的 内 容 , 同 时 ,对 应 VP4 的 页 表 项 中 的 存放 位 置 字段 被 十 上 该 磁盘 空间 的 起 始 地 
址 ,VP4 从 未 分 配 页 转变 为 未 缓存 页 。 

系统 中 每 个 进程 都 有 一 个 页 表 , 页 表 属 于 进程 控制 信息 ,存放 在 进程 地 址 空间 的 内 核 
区 ,页 表 在 主 存 的 首 地 址 记录 在 页 表 基 址 寄存 器 中 。 页 表 的 项 数 由 虚拟 地 址 空间 大 小 决定 ， 
前 面 提 到 ,虚拟 地 址 空间 是 一 个 用 户 编程 不 受 其 限制 的 足够 大 的 地 址 空间 。 因 此 ,页 表 项 数 
会 很 多 ,因而 会 带 来 页 表 过 大 的 问题 。 例 如 ,在 Intel x86 系统 中 ,虚拟 地 址 为 32 位 ,页 面 大 
小 为 4KB, 因 此 ,一 个 进程 有 22 /122 一 22 个 页 面 , 即 每 个 进程 的 页 表 可 达 22 个 页 表 项 。 若 
每 个 页 表 项 占 32 位 , 则 一 个 页 表 的 大 小 为 4MB。 显 然 , 这 么 大 的 页 表 全 部 放 在 主 存 中 是 不 
适合 的 。 

解决 页 表 过 大 的 方法 有 很 多 ,可 以 采用 限制 大 小 的 一 级 页 表 、 二 级 或 多 级 页 表 、 倒 置 页 
表 等 方案 。 如 何 实现 主要 是 操作 系统 考虑 的 问题 ,在 此 不 再 袭 述 。 

2) 地 址 转换 (Address Translation) 

对 于 采用 虚 存 机 制 的 系统 ,指令 中 给 出 的 地 址 是 虚拟 地 址 ,所 以 ,CPU 执行 指令 时 , 首 
先 要 将 虚拟 地 址 转换 为 主 存 物 理 地 址 ,才能 到 主 存 取 指 令 和 数据 。 地 址 转换 工作 由 CPU 
中 的 存储 器 管理 部 件 (Memory Management Unit, MMU) 来 完成 。 

假设 虚拟 存储 器 中 每 个 进程 有 m 页 , 主 存 中 有 个 页 框 ,通常 情况 下 m 宇 nx。 由 于 页 面 
大 小 是 2 的 短 次 ,所 以 ,每 一 页 的 起 点 都 落 在 低位 字段 为 零 的 地 址 上 。 因 此 ,虚拟 地 址 分 为 
两 个 字段 : 高 位 字段 为 虚拟 页 号 ,低位 字段 为 页 内 偏 移 地 址 。 主 存 物理 地 址 也 分 为 两 个 字 
段 : 高 位 字段 为 物理 页 号 ,低位 字段 为 页 内 偏 移 地 址 。 由 于 两 者 的 页 面 大 小 一 样 , 所 以 页 内 
偏 移 地 址 是 相等 的 。 

分 页 式 地 址 变换 过 程 如 图 7. 42 所 示 。 每 个 进程 都 有 一 个 页 表 基 址 寄存 器 ,存放 该 进程 
的 页 表 首 地 址 。 首 先 根据 页 表 基 址 寄存 器 的 内 容 ,找到 对 应 的 页 表 首 地 址 ,然后 以 虚拟 地 址 
高 位 字段 的 虚拟 页 号 为 索引 ,找到 对 应 的 页 表 项 , 若 装 和 位 为 1, 则 取出 物理 页 号 ,和 虚拟 地 
址 中 的 页 内 地 址 拼接 ,形成 实际 主 存 物理 地 址 ; 若 装 和 人 位 为 0, 则 说 明 缺 页 ,需要 操作 系统 进 
行 缺 页 处 理 。 



























































页 表 基 址 寄存 器 虚拟 页 号 ”页 内 地 址 
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0 ee @ 
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| 物理 页 号 页 内 地 址 

















页 表 
图 7.42 分 页 式 虚 存 的 地 址 转换 


3) 快 表 
从 上 述 地 址 转换 过 程 可 看 出 , 访 存 时 首先 要 到 主 存 查 页 表 , 然 后 才能 根据 主 存 物 理 地 址 
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再 访问 主 存 以 存 取 指 令 或 数据 。 如 果 缺 页 , 则 还 要 进行 页 面 替换 、 页 表 修 改 等 ,访问 主 存 的 
次 数 就 更 多 。 因 此 ,采用 虚拟 存储 器 机 制 后 ,使 得 访 存 次 数 增 加 了 。 为 了 减少 访 存 次 数 , 往 
往 把 页 表 中 最 活跃 的 几 个 页 表 项 复制 到 高 速 缓存 中 ,这 种 由 高 速 缓存 中 的 页 表 项 组 成 的 页 
表 称 为 后 备 转换 缓冲 器 (Translation Lookaside Buffer,TLB) ,通常 简称 为 快 表 ,相应 地 称 主 
存 中 的 页 表 为 慢 表 。 

这 样 ,在 地 址 转换 时 ,首先 到 快 表 中 查 页 表 项 ,如 果 命中 , 则 无 须 访问 主 存 中 的 页 表 。 因 
此 , 快 表 是 减少 访 存 时 间 开 销 的 有 效 方法 。 

快 表 比 页 表 小 得 多 ,为 提高 命中 率 , 快 表 通 常 具 有 和 较 高 的 关联 度 ,大 多 采用 全 相 联 或 组 
相 联 方式 。 每 个 表 项 的 内 容 由 页 表 表 项 内 容 加 上 一 个 TLB 标记 字段 组 成 ,TLB 标记 字段 
用 来 表示 该 表 项 取 自 页 表 中 的 哪个 虚拟 页 对 应 的 页 表 项 ,因此 ,TLB 标记 字段 的 内 容 在 全 
相 联 方式 下 就 是 该 页 表 项 对 应 的 虚拟 页 号 ;组 相 联 方式 下 则 是 对 应 虚拟 页 号 中 的 高 位 部 分 ， 
而 虚拟 页 号 的 低位 部 分 用 于 选择 TLB 组 的 组 索引 。 

图 7.43 是 一 个 具有 TLB 和 cache 的 多 级 存储 系统 示意 图 ,图 中 TLB 和 cache 都 采用 
组 相 联 映射 方式 。 

在 图 7. 43 中 ,CPU 给 出 的 是 一 个 32 位 的 虚拟 地 址 ,首先 由 CPU 中 的 MMU 进行 虚 
拟 地 址 到 物理 地 址 的 转换 ;然后 由 处 理 cache 的 硬件 根据 物理 地 址 进行 存储 访问 。MMU 
对 TLB 查 表 时 ,20 位 的 虚拟 页 号 被 分 成 标记 (Tag) 和 组 索引 两 部 分 ,首先 由 组 索引 确定 
在 TLB 的 哪 一 组 进行 查找 。 查 找 时 将 虚拟 页 号 的 标记 部 分 与 该 组 TLB 中 的 每 个 TLB 
标记 字段 同时 进行 比较 , 若 有 某 个 相等 且 对 应 有 效 位 为 1, 则 TLB 命中 ,此 时 ,可 直接 通 
过 TLB 进行 地 址 转换 ; 若 都 不 相等 , 则 TLB 缺失 ,此 时 ,需要 访问 主 存 去 查 页 表 。 图 中 所 
示 的 是 两 级 页 表 方 式 ,虚拟 页 号 被 分 成 目录 索引 和 页 表 索 引 两 部 分 ,由 这 两 部 分 得 到 对 
应 的 页 表 项 ,从 而 进行 地 址 转换 ,并 将 虚拟 页 号 的 高 位 部 分 作为 TLB 标记 和 对 应 页 表 项 
的 内 容 一 起 送 入 TLB。 若 TLB 已 满 , 还 要 进行 TLB 替换 ,为 降低 替换 算法 开销 ,TLB 常 
采用 随机 替换 策略 。 在 MMU 完成 地 址 转换 后 ,cache 硬件 根据 映射 方式 将 转换 得 到 的 主 
存 物理 地 址 划分 成 多 个 字段 ,然后 ,根据 cache 索引 ,找到 对 应 的 cache 行 或 cache 组 ,将 对 
应 各 cache 行 中 的 标记 与 物理 地 址 中 的 高 位 地 址 进行 比较 , 若 相 等 且 对 应 有 效 位 为 1, 则 
cache 命 中 ,此 时 ,根据 块 内 地 址 取出 对 应 的 字 , 需 要 的 话 ,再 根据 字 节 偏 移 量 从 字 中 取出 
相应 字 节 送 CPU。 

目前 TLB 的 一 些 典型 指标 为 : TLB 大 小 为 16 一 512 项 , 块 大 小 为 1 一 2 项 (每 个 表 项 
4 一 8B) ,命中 时 间 为 0.5 一 1 个 时 钟 周期 ,缺失 损失 为 10 一 100 个 时 钟 周期 ,命中 率 为 
90%~99%。 

4) CPU 访 存 过 程 

在 一 个 具有 cache 和 虚拟 存储 器 的 系统 中 ,CPU 的 一 次 访 存 操作 可 能 涉及 TLB、 页 表 、 
cache、 主 存 和 磁盘 的 访问 ,其 访问 过 程 如 图 7. 44 所 示 。 

从 图 7.44 可 以 看 出 ,CPU 访 存 过 程 中 存在 以 下 3 种 缺失 情况 。 

(1) TLB 缺失 (TLB miss): 要 访问 的 页 面 对 应 的 页 表 项 不 在 TLB 中 。 

(2) cache 缺失 (cache miss) : 要 访问 的 主 存 块 不 在 cache 中 。 

(3) 缺 页 (page miss) : 要 访问 的 页 面 不 在 主 存 中 。 

表 7.1 给 出 了 3 种 缺失 的 几 种 组 合 情 况 。 
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7.43 TLB 和 cache 的 访问 过 程 
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CPU 给 出 虚拟 地 址 VA 
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访问 cache 存 取 数 据 
图 7.44 CPU 访 存 过 程 


表 7.1 TLB ,page\cache 的 3 种 缺失 组 合 


序号 | TLB page cache 说 明 





和 hit hit hit | 可 能 ,TLB 命中 则 页 一 定 命中 ,信息 在 主 存 , 就 可 能 在 cache 中 
2 hit hit miss | 可 能 ,TLB 命中 则 页 一 定 命中 ,信息 在 主 存 ,但 可 能 不 在 cache 中 
3 miss hit hit “| 可 能 ,TLB 缺失 但 页 可 能 命中 ,信息 在 主 存 ,就 可 能 在 cache 中 











4 miss hit miss | 可 能 ,TLB 缺失 但 页 可 能 命中 ,信息 在 主 存 ,但 可 能 不 在 cache 中 
5 miss miss miss | 可 能 ,TLB 缺失 , 则 页 也 可 能 缺失 ,信息 不 在 主 存 , 一 定 也 不 在 cache 








6 hit miss miss | 不 可 能 ,页 缺失 ,说 明 信 息 不 在 主 存 ,TLB 中 一 定 没有 该 页 表 项 
7 hit miss hit 不 可 能 ,页 缺失 ,说 明 信 息 不 在 主 存 ,TLB 中 一 定 没有 该 页 表 项 




















8 miss | miss hit “| 不 可 能 ,页 缺失 ,说 明 信 息 不 在 主 存 ,cache 中 一 定 也 没有 该 信息 


很 显然 ,最 好 的 情况 是 第 1 种 组 合 ,此 时 ,无 须 访问 主 存 ;第 2 种 和 第 3 种 两 种 组 合 都 需 
要 访问 一 次 主 存 ;第 4 种 组 合 要 访问 两 次 主 存 ;第 5 种 组 合 会 发 生 “ 缺 页 ”异常 , 需 访问 磁盘 ， 
并 至 少 访 存 两 次 。 

cache 缺失 处 理由 硬件 完成 ; 缺 页 处 理由 软件 完成 ,操作 系统 通过 * 缺 页 异常 处 理 程序 ” 
来 实现 ;而 对 于 TLB 缺失 , 则 既 可 以 用 硬件 也 可 以 用 软件 来 处 理 。 用 软件 方式 处 理 时 ,操作 
系统 通过 专门 的 “TLB 缺失 异常 处 理 程序 ”来 实现 。 

对 于 分 页 式 虚 拟 存储 器 ,其 页 面 的 起 点 和 终点 地 址 固定 ,因此 ,实现 简单 ,开销 少 。 而 且 
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因为 只 有 进程 的 最 后 一 个 零头 (内 部 碎片 ) 不 能 利用 , 故 浪费 很 小 。 但 是 ,由 于 页 不 是 逻辑 上 
独立 的 实体 ,因此 ,对 于 那些 不 采用 对 齐 方式 存储 的 计算 机 来 说 ,可 能 会 出 现 一 个 数据 或 一 
条 指令 分 跨 在 两 个 页 面 等 问题 ,使 处 理 、 管 理 、. 保 护 和 共享 等 都 不 方便 。 采 用 下 面 介绍 的 分 
段 式 虚 拟 存储 器 就 可 避免 这 种 情况 的 发 生 。 

2. 分 段 式 虚拟 存储 器 

根据 程序 的 模块 化 性 质 ,可 按 程序 的 逻辑 结构 划分 成 多 个 相对 独立 的 部 分 ,例如 代码 
区 、 只 读数 据 区 、 可 读 写 数据 区 等 。 这 些 相 对 独立 的 部 分 称 为 段 ,它们 作为 独立 的 逻辑 单位 
可 以 被 其 他 程序 段 调用 ,形成 段 间 连接 ,从 而 产生 规模 较 大 的 程序 。 段 通常 有 段 名 、 段 起 点 、 
段 长 等 。 段 名 可 用 用 户 名 数据 结构 名 或 段 号 标识 ,以 便于 程序 的 编写 ` 编 译 器 的 优化 和 操 
作 系 统 的 调度 管理 等 。 

可 以 把 段 作为 基本 信息 单位 在 主 存 和 辅 存 之 间 传 送 和 定位 。 分 段 方 式 下 ,将 主 存 空 间 
按 实际 程序 中 的 段 来 划分 ,每 个 段 在 主 存 中 的 位 置 记 录 在 段 表 中 , 段 的 长 度 可 变 , 所 以 段 表 
中 需 有 长 度 指示 , 即 段 长 。 每 个 进程 有 一 个 段 表 ,每 个 段 在 段 表 中 有 一 个 段 表 项 ,用 来 指明 
对 应 段 在 主 存 中 的 位 置 、 段 长 .访问 权限 、 使 用 和 装 和 人 情况 等 。 段 表 本 身 也 是 一 个 可 再 定位 
段 ,可 以 存在 外 存 中 ,需要 时 调 入 主 存 ,但 一 般 驻 留 在 主 存 中 。 

在 分 段 式 虚拟 存储 器 系统 中 ,虚拟 地 址 由 段 号 和 段 内 地 址 组 成 。 通 过 段 表 把 虚拟 地 址 
变换 成 主 存 物 理 地 址 ,其 变换 过 程 如 图 7. 45 所 示 。 
段 表 基 址 寄存 器 虚拟 地 址 
段 表 基 地 址 段 号 | 段 内 地 址 





























段 号 段 首 址 ” 装 入 位 ” 段 长 


| = 0 | 























nl | 物理 地 址 
段 表 (在 主 存 中 ) 


图 7.45 分 段 式 虚 存 的 地 址 转换 


























每 个 用 户 进程 有 一 个 段 表 基 址 寄存 器 ,存放 其 段 表 在 内 存 的 首 地 址 。 根 据 虚 拟 地 址 中 
的 段 号 ,可 找到 对 应 段 表 项 ,以 检查 是 否 存在 以 下 3 种 异常 情况 。 

(1) 缺 段 ( 段 不 存在 ): 装 和 人 位 一 0。 

(2) 地 址 越界 : 偏 移 量 超出 最 大 段 长 。 

(3) 保护 违例 : 操作 方式 与 指定 访问 权限 不 符 。 

若 发 生 以 上 3 种 情况 , 则 调用 相应 的 异常 处 理 程序 ,否则 ,将 段 表 项 中 的 段 首 址 与 虚拟 
地 址 中 的 段 内 地 址 相 加 ,生成 主 存 物理 地 址 。 

因为 段 本 身 是 程序 的 逻辑 结构 所 决定 的 一 些 独立 部 分 ,因而 分 段 对 程序 员 来 说 是 不 透 
明 的 ;而 分 页 对 程序 员 来 说 是 透明 的 ,程序 员 编 写 程序 时 不 需 知道 程序 将 如 何 分 页 。 

分 段 式 管理 系统 的 优点 是 段 的 分 界 与 程序 的 自然 分 界 相对 应 ; 段 的 逻辑 独立 性 使 它 易 
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于 编译 .管理 、 修 改 和 保护 ,也 便于 多 道 程序 共享 ; 某 些 类 型 的 段 ( 如 堆 、 栈 .队列 等 ) 具 有 动态 
可 变 长 度 ,允许 自由 调度 以 便 有 效 利用 主 存 空间 。 但 是 ,由 于 段 的 长 度 各 不 相同 , 段 的 起 点 
和 终点 不 定 , 给 主 存 空 间 分 配 带 来 麻烦 ,而 且 容 易 在 主 存 中 留 下 许多 空白 的 零碎 空间 ,造成 
浪费 。 

分 段 式 和 分 页 式 存储 管理 各 有 优 缺 点 ,因此 可 采用 分 段 和 分 页 相 结合 的 段 页 式 存储 管 
理 方式 。 

3. 段 页 式 虚拟 存储 器 

在 段 页 式 虚 拟 存储 器 中 ,程序 按 模块 分 段 , 段 内 再 分 页 ,用 段 表 和 页 表 ( 每 段 一 个 页 表 ) 
进行 两 级 定位 管理 。 段 表 中 每 个 表 项 对 应 一 个 段 ,每 个 段 表 项 中 包含 一 个 指向 该 段 页 表 起 
始 位 置 的 指针 ,以 及 该 段 其 他 的 控制 和 存储 保护 信息 ;由 页 表 指 明 该 段 各 页 在 主 存 中 的 位 置 
以 及 是 否 装 人 、 修 改 等 状态 信息 。 

程序 的 调 入 调 出 按 页 进行 ,但 它 又 可 以 按 段 实现 共享 和 保护 。 因 此 , 它 兼 有 分 页 式 和 分 
段 式 存储 管理 的 优点 。 它 的 缺点 是 在 地 址 映 象 过 程 中 需要 多 次 查 表 。 


“7.7.5 存储 保护 


为 避免 主 存 中 多 道 程 序 相互 干扰 ,防止 某 程序 出 错 而 破坏 其 他 程序 的 正确 性 ,或 某 程序 
不 合法 地 访问 其 他 程序 或 数据 区 ,应 该 对 每 个 程序 进行 存储 保护 ,包括 操作 系统 程序 和 用 户 
程序 。 

为 了 对 操作 系统 存储 保护 提供 支持 ,硬件 必须 具有 以 下 3 种 基本 功能 。 

(1) 支持 至 少 两 种 特权 模式 。 

执行 操作 系统 内 核 程序 时 处 理 器 所 处 的 模式 称 为 管理 模式 、 内 核 模 式 或 称 管理 程序 状 
态 ,简称 管 态 .管理 态 ,内核 态 或 核心 态 ; 执 行 用 户 程序 时 处 理 器 所 处 的 模式 称 为 用 户 模 式 、 
用 户 状 态 或 目标 程序 状态 ,简称 为 目 态 或 用 户 态 。 

(2) 使 部 分 CPU 状态 只 能 由 操作 系统 内 核 程序 进行 读 写 而 用 户 进程 不 能 读 写 。 

特权 模式 位 、 页 表 首 地 址 .TLB 内 容 等 都 只 能 由 操作 系统 内 核 程 序 通 过 特殊 的 指令 (一 
般 称 为 管 态 指令 或 特权 指令 ) 进 行 访问 。 常 用 的 管 态 指令 (特权 指令 ) 包 括 刷新 cache、 刷 新 
TLB 改变 特权 模式 、 输 入/ 输出、 停止 处 理 器 执行 等 。 

(3) 提供 让 CPU 在 管理 模式 和 用 户 模式 之 间 相 互 转换 的 机 制 。 

如 果 用 户 进 程 需 要 访问 内 核 代 码 和 数据 ,那么 ,必须 通过 执行 系统 调用 指令 来 间接 访 
问 。 响 应 异常 和 中 断 可 使 CPU 从 用 户 模式 转 到 管理 模式 ;异常 处 理 和 中 断 处理 后 的 “ 返 
回 ” 指 令 (return from exception) 使 CPU 从 管理 模式 转 到 用 户 模式 。 

硬件 通过 提供 相应 的 专用 寄存 器 .专门 的 指令 专门 的 状态 /控制 位 等 ,和 操作 系统 一 起 
实现 上 述 3 个 功能 。 通 过 这 些 功能 ,并 把 页 表 保 存在 操作 系统 的 地 址 空间 ,操作 系统 就 可 更 
新 页 表 , 并 防止 用 户 进程 改变 页 表 , 以 确保 用 户 进程 只 能 访问 由 操作 系统 分 配给 的 存储 
空间 。 

存储 保护 包括 以 下 两 种 情况 : 访问 方式 保护 和 存储 区 域 保护 。 

1. 访问 方式 保护 

访问 方式 保护 就 是 看 是 否 发 生 了 “访问 越权 ”。 若 实际 访问 操作 与 访问 权限 不 符 , 则 发 


着 和 储 器 分 层 余 系 结 欧 


生存 储 保护 错 。 通 常 通过 在 页 表 或 段 表 中 设置 访问 权限 位 来 实现 这 种 保护 。 一 般 规 定 : 各 
程序 对 本 程序 所 在 的 存储 区 可 读 可 写 ; 对 共享 区 或 已 获 授 权 的 其 他 用 户 信息 可 读 不 可 写 ;而 
对 未 获 授 权 的 信息 (如 操作 系统 内 核 ` 页 表 等 ) 不 可 访问 。 通 常 ,数据 段 可 指定 为 可 读 可 写 或 
只 读 ; 程 序 段 可 指定 只 可 执行 或 只 读 。 

2. 存储 区 域 保 护 

存储 区 域 保护 就 是 看 是 否 发 生 了 “地 址 越界 ”, 即 是 否 访问 了 不 该 访问 的 区 域 。 通 常 有 
以 下 几 种 常用 的 存储 区 域 保护 方式 。 

(1) 加 界 重 定 位 。 每 个 程序 或 程序 段 都 记录 有 起 始 地 址 和 终止 地 址 ,分 别称 为 上 界 和 
下 界 。 对 虚拟 地 址 加 界 ( 即 加 基准 地 址 ) 生 成 物理 地 址 后 ,如 果 物 理 地 址 超过 了 上 界 和 下 界 
规定 的 范围 , 则 地 址 越界 。 有 些 系统 用 专门 的 一 对 上 界 寄存 器 和 下 界 寄存 器 来 记录 上 界 和 
下 界 。 在 分 段 式 虚 存 中 ,通过 段 表 来 记录 段 的 上 界 和 下 界 。 

(2) 键 保护 方式 。 操 作 系统 为 主 存 的 每 一 个 页 框 分 配 一 个 存储 键 ,为 每 个 用 户 进程 设 
置 一 个 程序 键 。 进 程 运行 时 ,将 程序 状态 字 寄 存 器 中 的 键 ( 程 序 键 ) 和 所 访问 页 的 键 ( 存 储 
键 ) 进 行 核对 ,相符 时 才 可 访问 ,如 同 锁 与 钥匙 的 关系 。 为 使 某 个 页 框 能 被 所 有 进程 访问 ,或 
某 个 进程 可 访问 任何 一 个 页 框 , 可 规定 键 标志 为 0, 此 时 不 进行 核对 工作 。 例 如 ,操作 系统 
有 权 访 问 所 有 页 框 中 的 页 面 , 因 此 ,可 让 内 核 进 程 的 程序 键 为 0。 

(3) 环保 护 方式 。 主 存 中 各 进程 按 其 重要 性 分 为 多 个 保护 级 ,各 级 别 构成 同心 环 , 最 内 
环 的 保护 级 别 最 高 ,向 外 逐次 降低 。 内 环 可 以 访问 外 环 和 同 环 进程 的 地 址 空间 ,而 外 环 不 得 
访问 内 环 的 地 址 空间 。 内 核 程 序 的 保护 级 别 最 高 , 环 号 最 小 ,而 用 户 进程 都 处 于 外 环 上 。 
IA-32 就 采用 该 方案 ,操作 系统 内 核 工作 在 第 0 环 (内 核 态 ), 操 作 系统 其 他 部 分 工作 在 第 1 
环 ,用 户 进程 工作 在 第 3 环 (用 户 态 ) , 留 下 第 2 环 给 中 间 软 件 使 用 。 实 际 上 , Linux 等 操作 
系统 只 用 了 其 中 的 第 0 环 和 第 3 环 。 


7.8 本 章 小 结 


本 章 主要 包括 存储 器 的 分 类 、 存 储 器 分 层 结构 、 半 导体 随机 存 取 存储 器 的 组 织 、 只 读 存 
储 器 、 主 存储 器 与 CPU 的 连接 、 多 体 交 又 编 址 存储 器 、 高 速 缓 冲 存储 器 (cache) 的 基本 原理 、 
cache 和 主 存 之 间 的 地 址 映射 .替换 算法 、 虚 拟 存储 器 的 基本 概念 、 页 表 结 构 、 缺 页 异常 .后 
备 转 换 缓 冲 器 (TLB) 等 。 

存储 器 按 存 取 方 式 分 为 随机 、 顺 序 、 直 接 和 相 联 存储 器 4 类 ; 按 存储 介质 分 为 半导体 、 磁 
表面 .激光 盘存 储 器 3 类 ; 按 信息 可 更 改 性 分 为 可 读 可 写 和 只 读 存储 器 两 类 ; 按 断 电 后 可 否 
保存 分 为 易 失 和 非 易 失 存 储 器 两 类 。 

因为 每 一 类 单独 的 存储 器 都 不 可 能 又 快 .又 大 、 又 便宜 ,为 了 构建 理想 的 存储 器 系统 , 计 
算 机 内 部 采用 了 一 种 层次 化 的 存储 器 体系 结构 。 按 照 速度 从 快 到 慢 、 容 量 从 小 到 大 、 价 格 从 
贵 到 便宜 .与 CPU 连接 的 距离 由 近 到 远 的 顺序 ,将 不 同类 型 的 存储 器 设置 在 计算 机 中 ,其 
设置 的 顺序 为 寄存 器 一 cache 习 主 存 一 磁盘 一 光盘 和 磁带 。 

利用 程序 访问 的 局 部 性 特点 ,通常 把 主 存 中 的 一 块 数据 复制 到 靠近 CPU 的 cache 中 。 
cache 和 主 存 间 的 映射 有 直接 映射 .全 相 联 映射 和 组 相 联 映射 ;替换 算法 主要 FIFO 和 
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LRU; 写 策略 有 回 写 法 和 全 写法 。 

虚拟 存储 器 机 制 的 引入 ,使 得 每 个 进程 具有 一 个 一 致 的 \ 极 大 的 .私有 的 虚拟 地 址 空间 。 
虚拟 地 址 空间 按 等 长 的 页 来 划分 , 主 存 也 按 等 长 的 页 框 划分 。 进 程 执行 时 将 当前 用 到 的 页 
面 装 入 主 存 , 其 他 暂时 不 用 的 部 分 放 在 磁盘 上 ,通过 页 表 建 立 虚拟 页 和 主 存 页 框 之 间 的 对 应 
关系 。 不 在 主 存 的 页 面 在 页 表 中 记录 其 在 磁盘 上 的 地 址 。 在 指令 执行 过 程 中 ,由 特殊 硬件 
(MMU) 和 操作 系统 一 起 实现 存储 访问 。 虚 拟 存 储 器 有 分 页 式 、 分 段 式 、 段 页 式 3 类 。 虚 拟 
地 址 需 转换 成 物理 地 址 。 每 个 进程 有 一 个 页 表 , 每 个 页 表 项 由 有 效 ( 装 入 ) 位 、 使 用 位 、 修 改 
位 、 存 取 权 限 位 、 主 存 页 框 号 或 磁盘 地 址 等 组 成 。 为 减少 访问 内 存 中 页 表 的 次 数 ,通常 将 活 
跃 页 的 页 表 项 放 到 一 个 特殊 的 高 速 缓存 TLB( 快 表 ) 中 。 虚 拟 存储 器 机 制 能 实现 存储 保护 ， 
通常 有 地 址 越界 和 访问 越权 两 种 内 存 保护 错 。 


习 题 

1. 给 出 以 下 概念 的 解释 说 明 。 
静态 RAM(SRAM) 动态 RAM(DRAM) 刷新 易 失 性 存储 器 
相 联 存储 器 存 取 时 间 存储 周期 存储 器 带宽 
片 选 信号 地 址 引 脚 复 用 行 选 通信 号 (RAS) 列 选 通信 号 (CAS) 
PROM EPROM FE: PROM 闪存 (Flash) 
多 模块 交叉 存储 器 双 口 RAM 时 间 局 部 性 空间 局 部 性 
命中 率 命中 时 间 缺失 率 缺失 损失 
虚拟 地 址 虚拟 页 号 物理 地 址 页 框 (页 帧 ) 
物理 页 号 重 定位 页 表 页 表 基 址 寄存 器 
有 效 位 ( 装 入 位 ) 修改 位 缺 页 (page fault) 请 求 分 页 
FIFO LRU 快 表 (TLB) 管理 模式 
用 户 模 式 异常 返回 存储 保护 地 址 越界 
访问 越权 


2. 简单 回答 下 列 问题 。 

(1) 计算 机 内 部 为 何 要 采用 层次 化 存储 体系 结构 ? 层次 化 存储 体系 结构 如 何 构 成 ? 

(2) SRAM 芯片 和 DRAM 芯片 各 有 哪些 特点 ? 各 自用 在 哪些 场合 ? 

(3) CPU 和 主 存 之 间 有 哪 两 种 通信 定时 方式 ? SDRAM 芯片 采用 什么 方式 和 CPU 交换 信息 ? 

(4) 为 什么 在 CPU 和 主 存 之 间 引 入 cache 能 提高 CPU 访 存 效 率 ? 

(5) 为 什么 说 cache 对 程序 员 是 透明 的 ? 

(6) 什么 是 cache 映射 的 关联 度 ? 关联 度 与 命中 率 、 命 中 时 间 的 关系 各 是 什么 ? 

(7) 为 什么 直接 映射 方式 不 需要 考虑 替换 策略 ? 

(8) 为 什么 要 考虑 cache 的 一 致 性 问题 ? 读 操作 时 是 否 要 考虑 cache 的 一 致 性 问题 ? 为 什么 ? 

(9) 什么 是 物理 地 址 ? 什么 是 逻辑 地 址 ? 地 址 转换 由 硬件 还 是 软件 实现 ? 为 什么 ? 

(10) 什么 是 页 表 ? 什么 是 快 表 (TLB)? 

(11) 在 存储 器 层次 化 结构 中 ,“cache- 主 存 ”"“ 主 存 -磁盘 ”这 两 个 层次 有 哪些 不 同 ? 

3. 已 知 某 机 主 存 最 大 寻 址 空间 为 4GB, 按 字 节 编 址 。 假 定 用 64MX8 位 的 具有 8 个 位 平面 的 DRAM 
芯片 构成 容量 为 512MB, 传 输 宽度 为 64 位 的 内 存 条 ( 主 存 模 块 )。 要 求 回 答 下 列 问题 。 

(1) 每 个 内 存 条 需要 多 少 个 这 样 的 DRAM 芯片 ? 
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(2) 构建 容量 为 2GB 的 主 存 时 ,需要 几 个 内 存 条 ? 

(3) 主 存 地 址 共 多 少 位 ? 其 中 哪 几 位 用 于 DRAM 芯片 内 地 址 ? 哪 几 位 是 片 内 的 行 地 址 ? 哪 几 位 是 片 
内 列 地 址 ? 哪 几 位 用 于 选择 芯片 ? 

4. 假定 用 64KX1 位 的 DRAM 芯片 构成 256KX8 位 的 存储 器 ,要 求 回答 下 列 问 题 。 

(1) 所 需 芯 片 数 为 多 少 ? 画 出 该 存储 器 的 逻辑 框图 。 

(2) 若 采 用 异步 刷新 方式 ,每 单元 刷新 间隔 不 超过 2ms, 则 产生 刷新 信号 的 间隔 是 多 少时 间 ? 若 采用 
集中 刷新 方式 , 则 存储 器 刷新 一 遍 最 少 用 多 少 个 读 写 周 期 ? 

5. 假定 用 8KX8 位 的 EPROM 芯片 组 成 32KX16 位 的 只 读 存储 器 ,要 求 回答 以 下 问题 。 

(1) 数据 寄存 器 最 少 应 有 多 少 位 ? 

(2) 地 址 寄存 器 最 少 应 有 多 少 位 ? 

(3) 共 需 多 少 个 EPROM 芯片 ? 

6. 某 计 算 机 中 已 配 有 0000H~7FFFH 的 ROM 区 域 ,现在 再 用 8KX4 位 的 RAM 芯片 形成 32KX8 
位 的 存储 区 域 ,CPU 地 址 线 为 A0~A15 ,数据 线 为 D0 一 D7 ,控制 信号 为 R/W( 读 / 写 )、MREQ( 访 存 )。 要 
求 说 明 地 址 译 码 方案 。 假 定 上 述 其 他 条 件 不 变 , 只 是 CPU 地 址 线 改 为 24 根 ,地 址 范围 000000H 一 
007FFFH 为 ROM 区 , 剩 下 的 所 有 地 址 空间 都 用 8KX4 位 的 RAM 芯片 配置 , 则 需要 多 少 个 这 样 的 RAM 
芯片 ? 

7. 假定 一 个 存储 器 系统 支持 四 体 交 叉 存 取 , 某 程序 执行 过 程 中 访问 地 址 序列 为 3,9,17,2,51,37,13， 
4,8,41,67,10, 则 哪些 地 址 访问 会 发 生体 冲突 ? 

8. 现代 计算 机 中 ,SRAM 一 般 用 于 实现 快速 小 容量 的 cache, 而 DRAM 用 于 实现 慢 速 大 容量 的 主 存 。 
以 前 超级 计算 机 通常 不 提供 cache, 而 是 用 SRAM 来 实现 主 存 ( 如 Cray 巨型 机 ) ,请问 : 如 果 不 考虑 成 本 ， 
你 还 这 样 设计 高 性 能 计算 机 吗 ? 为 什么 ? 

9. 对 于 数据 的 访问 ,分 别 给 出 具有 下 列 要 求 的 程序 或 程序 段 的 示例 : 

(1) 几乎 没有 时 间 局 部 性 和 空间 局 部 性 。 

(2) 有 很 好 的 时 间 局 部 性 ,但 几乎 没有 空间 局 部 性 。 

(3) 有 很 好 的 空间 局 部 性 ,但 几乎 没有 时 间 局 部 性 。 

(4) 空间 局 部 性 和 时 间 局 部 性 都 好 。 

10. 假定 某 计算 机 主 存 地址 空间 大 小 为 1GB, 按 字 节 编 址 cache 的 数据 区 ( 即 不 包括 标记 、 有 效 位 等 存 
储 区 ) 有 64KB, 块 大 小 为 128 字 节 ,采用 直接 映射 和 直 写 (write through) 方 式 。 请 问 : 

(1) 主 存 地 址 如 何 划 分 ? 要 求 说 明 每 个 字段 的 含义 、 位 数 和 在 主 存 地 址 中 的 位 置 。 

(2) cache 的 总 容量 为 多 少 位 ? 

11. 假定 某 计 算 机 的 cache 共 16 行 ,开始 为 空 , 块 大 小 为 1 个 字 , 采 用 直接 映射 方式 , 按 字 编 址 。CPU 
执行 某 程序 时 ,依次 访问 以 下 地 址 序列 : 2,3,11,16,21,13,64,48,19,11,3,22,4,27,6 和 11。 要 求 : 

(1) 说 明 每 次 访问 是 命中 还 是 缺失 , 试 计算 访问 上 述 地 址 序列 的 命中 率 。 

(2) 车 cache 数据 区 容量 不 变 , 而 块 大 小 改 为 4 个 字 , 则 上 述 地 址 序列 的 命中 情况 又 如 何 ? 

12. 假定 数组 元 素 在 主 存 按 从 左 到 右 的 下 标 顺 序 存放 。 试 改变 下 列 函数 中 循环 的 顺序 ,使 得 其 数组 元 
素 的 访问 与 排列 顺序 一 致 ,并 说 明 为 什么 修改 后 的 程序 比 原来 的 程序 执行 时 间 短 。 





int sum array (int a[N] [N] [N]) 
{ 
int i, j, k, sum=0; 
for (i=0; i<N; i++) 
for(j=0; j<N; j++) 
for(k=0; k<N; k++) sumt+=al[k] [i] [j]; 
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return sum; 


} 


13. 分 析 比 较 以 下 3 个 函数 中 数组 访问 的 空间 局 部 性 ,并 指出 哪个 最 好 ,哪个 最 差 ? 





#define N 1000 
typedef struct { 
int vel[3]; 
int acc[3]; 
} point; 
point p[N]; 
void clearl (point *p, int n) 
int i, j; 
for (i=0; i<n; i++) { 
for (j=0; j<3; j++) 
Plil].vel[j] =0; 
fo0r (3 =07 i<3 j++) 
Plil].acc[j] =0; 


#define N 1000 
typedef struct { 
int vel [3]; 
int acc [3]; 
} point; 
point p[N]; 
void clear2(point *p, int n) 
{ 
int iv J; 
for (i=0; i<n; i++) { 
for (j=0; j<3; j++) { 
Pl[i] .vel[j] =0; 
plil .acc[j] =0; 


#define N 1000 
typedef struct { 
int vel [3]; 
int acc[3]; 
} point; 
point p[N]; 
void clear3 (point * P，int n) 
{ 
int 4, 3 
for (j=0; j<3; j++) { 
for (i=0; i<n; i++) 
plil].vel[lj] =0; 
for (i=0; i<n; i++) 


plil.acc[j] =0; 


} } } 

















14. 以 下 是 计算 两 个 向 量 点 积 的 程序 段 : 


float dotproduct (float x[8], float y[8]) 


{ 
float sum=0.0; 
int i; 
for (i=0; i<8; i++) sum+=x[i] *yl[i]; 
return sum; 


} 


要 求 ， 

(1) 试 分 析 该 段 代 码 中 访问 数组 x 和 y 的 时 间 局 部 性 和 空间 局 部 性 ,并 推断 命中 率 的 高 低 。 

(2) 假定 该 段 程序 运行 的 计算 机 中 数据 cache 采用 直接 映射 方式 ,其 数据 区 容量 为 32 字 节 ,每 个 主 存 
块 大 小 为 16 字 节 。 假 定编 译 程序 将 变量 sum 和 i 分 配给 寄存 器 ,数组 zx 存放 在 00000040H 开始 的 32 字 
节 的 连续 存储 区 中 ,数组 y 则 紧 跟 在 z 后 进行 存放 。 试 计算 该 程序 中 数据 访问 的 命中 率 , 要 求 说 明 每 次 访 
问 时 cache 的 命中 情况 。 

(3) 将 上 述 (2) 中 的 数据 cache 改 用 2 路 组 相 联 映射 方式 , 块 大 小 改 为 8 字 节 ,其 他 条 件 不 变 , 则 该 程序 
数据 访问 的 命中 率 是 多 少 ? 

(4) 上 述 (2) 中 条 件 不 变 的 情况 下 ,如 果 将 数组 zx 定义 为 float z[12], 则 数据 访问 的 命中 率 又 是 多 少 ? 

15. 以 下 是 对 矩阵 进行 转 置 的 程序 段 : 


typedef int array[4] [4]; 
void transpose (array dst, array src) 
{ 

Lt 

for (i=0; i<4; i++) 


for(j=0; j<4; j++) dst[j] [i]=src[i] (j]; 
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假设 该 段 程序 运行 的 计算 机 中 sizeof(int) 一 4, 且 只 有 一 级 cache, 其 中 Ll 数据 cache 的 数据 区 大 小 为 
32B, 采 用 直接 映射 、 回 写 方式 , 块 大 小 为 16B, 初 始 为 空 。 数 组 dst 从 地 址 0000C000H 开始 存放 ,数组 src 四 


从 地 址 0000C010H 开始 存放 。 填 写 下 表 , 说 明 对 数组 元 素 src[row][Lcol] 和 dst[row][col] 的 访问 是 命中 
(hit) 还 是 缺失 (miss) 。 若 L1 数据 cache 的 数据 区 容量 改 为 128B 时 ,重新 填写 表 中 内 容 。 




















src 数组 dst 数 组 
col 一 0 col 一 1 col 一 2 col 一 3 col 一 0 col 一 1 col 一 2 col 一 3 
row 一 0 miss miss 
row 一 1 
row 一 2 
row 一 3 


























16. 通过 对 方 格 中 每 个 点 设置 相应 的 CMYK 值 就 可 以 将 方 格 涂 上 相应 的 颜色 。 以 下 3 个 程序 段 都 可 
实现 对 一 个 8X8 的 方 格 涂 上 黄色 的 功能 。 





struct pt_color { struct pt_color { struct pt_color { 
int ec; int c7 int c7 
int m; int m; int m; 
int y; int y; int y; 
int k; int k; int k; 


} } 
struct pt_color square [8] [8]; struct pt_color square[8] [8]; struct pt_color square[8] [8]; 

















int 4 7 int i, j; 
for (i=0; i<8; i++) { for (i=0; i<8; i++) { for (i=0; i<8; i++) 
for (j=0; j<8; j++) { for (j=0; j<8; j++) { for (j=0; j<8; j++) 
square[i][j].c=0; square [j] [i].c =0; square [i] [j].y=1; 
square[i][j] .m=0; square [j] [i].m=0; for (i=0; i<8; i++) 
square[i][j].y=1; square [j] [i].y=1; for (j=0; j<8; j++) { 
square[i][j].k =0; square [j] [i].k =0; square[i][j].c=0; 
} } square[i] [j] .m=0; 
} } square [i] [j].k =0; 
} 
程序 段 A 程序 段 B 程序 段 C 





假设 cache 的 数据 区 大 小 为 512B, 采 用 直接 映射 , 块 大 小 为 32B, 存 储 器 按 字 节 编 址 , sizeof(int) 二 4。 
编译 时 变量 i 和 j 分 配 在 寄存 器 中 ,数组 square 按 行 优先 方式 存放 在 0000 08C0H 开始 的 连续 区 域 中 , 主 
存 地址 为 32 位 。 要 求 : 

(1) 对 3 个 程序 段 A、B、C 中 数组 访问 的 时 间 局 部 性 和 空间 局 部 性 进行 分 析 比 较 。 

(2) 画 出 主 存 中 的 数组 元 素 和 cache 中 行 的 对 应 关系 图 。 

(3) 分 别 计算 3 个 程序 段 A、B、C 中 的 写 操 作 次 数 、 写 不 命中 次 数 和 写 缺失 率 。 

17. 假设 某 计算 机 的 主 存 地 址 空间 大 小 为 64MB, 采 用 字 节 编 址 方式 。 其 cache 数据 区 容量 为 4KB, 采 
用 四 路 组 相 联 映射 方式 、LRU 替换 算法 和 回 写 (write back) 策 略 , 块 大 小 为 64B。 请 问 : 

(1) 主 存 地 址 字段 如 何 划 分 ?要求 说 明 每 个 字段 的 含义 、 位 数 和 在 主 存 地 址 中 的 位 置 。 

(2) 该 cache 的 总 容量 有 多 少 位 ? 

(3) 假设 cache 初始 为 空 ,CPU 依次 从 0 号 地 址 单元 顺序 访问 到 4344 号 单元 ,重复 按 此 序列 共 访 问 
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16 次 。 若 cache 命中 时 间 为 1 个 时 钟 周期 ,缺失 损失 为 10 个 时 钟 周期 , 则 CPU 访 存 的 平均 时 间 为 多 少时 
钟 周期 ? 

18. 假定 某 处 理 器 可 通过 软件 对 高 速 缓存 设置 不 同 的 写 策略 ,那么 ,在 下 列 两 种 情况 下 ,应 分 别 设置 成 
什么 写 策略 ? 为 什么 ? 

(1) 处 理 器 主要 运行 包含 大 量 存储 器 写 操作 的 数据 访问 密集 型 应 用 。 

(2) 处 理 器 运行 程序 的 性 质 与 (1) 相 同 ,但 安全 性 要 求 很 高 ,不 允许 有 任何 数据 不 一 致 的 情况 发 生 。 

19. 已 知 cache 1 采用 直接 映射 方式 , 共 16 行 , 块 大 小 为 1 个 字 , 缺 失 损 失 为 8 个 时 钟 周期 ;cache 2 也 
采用 直接 映射 方式 , 共 4 行 , 块 大 小 为 4 个 字 , 缺 失 损 失 为 11 个 时 钟 周 期 。 开 始 时 cache 为 空 ,采用 字 编 址 
方式 。 要 求 找 出 一 个 访问 地 址 序列 ,使 得 cache 2 具有 更 低 的 缺失 率 ,但 总 缺失 损失 反而 比 cache 1 大 。 

20. 提高 关联 度 通常 会 降低 缺失 率 , 但 并 不 总 是 这 样 。 请 给 出 一 个 地 址 访问 序列 ,使 得 采用 LRU 替换 
算法 的 2 路 组 相 联 映射 cache 比 具有 同样 大 小 的 直接 映射 cache 的 缺失 率 更 高 。 

21. 假定 有 3 个 处 理 器 ,分 别 带 有 以 下 不 同 的 cache: 

cache 1: 采用 直接 映射 方式 , 块 大 小 为 1 个 字 , 指 令 和 数据 的 缺失 率 分 别 为 4% 和 6%。 

cache 2: 采用 直接 映射 方式 , 块 大 小 为 4 个 字 , 指 令 和 数据 的 缺失 率 分 别 为 2% 和 4%。 

cache 3: 采用 2 路 组 相 联 映射 方式 , 块 大 小 为 4 个 字 , 指 令 和 数据 的 缺失 率 分 别 为 2% 和 3%。 

在 这 些 处 理 器 上 运行 同一 个 程序 ,其 中 有 一 半 是 访 存 指令 ,在 3 个 处 理 器 上 测 得 该 程序 的 CPI 都 为 2.0。 
已 知 处 理 器 1 和 2 的 时 钟 周期 都 为 420ps, 处 理 器 3 的 时 钟 周期 为 450ps。 若 缺失 损失 为 ( 块 大 小 十 6) 个 时 
钟 周期 ,请问 : 哪个 处 理 器 因 cache 缺失 而 引起 的 额外 开销 最 大 ? 哪个 处 理 器 执行 速度 最 快 ? 

22. 假定 某 处 理 器 带 有 一 个 数据 区 容量 为 256B 的 cache, 其 块 大 小 为 32B。 以 下 C 语 言 程序 段 运行 在 
该 处 理 器 上 , 设 sizeof(int) 二 4, 编 译 器 将 变量 i、j、c、s 都 分 配 在 通用 寄存 器 中 ,因此 ,只 要 考虑 数组 元 素 的 
访 存 情况 。 若 cache 采用 直接 映射 方式 , 则 当 * 一 64 和 s==63 时 ,缺失 率 分 别 为 多 少 ? 若 cache 采用 2 路 组 
相 联 映射 方式 , 则 当 s 二 64 和 * 一 63 时 ,缺失 率 又 分 别 为 多 少 ? 





FE Pe 


for (i=0; i<10000; i++) 

for (j=0; j<128; j=j+s) 
c=al[j]; 

23. 假定 一 个 虚拟 存储 系统 的 虚拟 地 址 为 40 位 ,物理 地 址 为 36 位 ,页 大 小 为 16KB。 若 页 表 中 有 有 效 
位 \ 存 储 保 护 位 、 修 改 位 、 使 用 位 4 个 表 项 , 共 占 4 位 ,磁盘 地 址 不 记录 在 页 表 中 , 则 该 存储 系统 中 每 个 进程 
的 页 表 大 小 为 多 少 ? 如 果 按 计算 出 来 的 实际 大 小 构建 页 表 , 则 会 出 现 什么 问题 ? 

24. 假定 一 个 计算 机 系统 中 有 一 个 TLB 和 一 个 Ll 数据 cache。 该 系统 按 字 节 编 址 ,虚拟 地 址 16 位 ， 
物理 地 址 12 位 ,页 大 小 为 128B;TLB 采用 四 路 组 相 联 方式 ,共有 16 个 页 表 项 ;L1 数据 cache 采用 直接 映 
射 方式 , 块 大 小 为 4B, 共 16 行 。 在 系统 运行 到 某 一 时 刻 时 ,TLB、 页 表 和 Ll 数据 cache 中 的 部 分 内 容 
如 下 : 


组 号 标记 页 框 号 有 效 位 标记 页 框 号 有 效 位 ”标记 页 框 号 有 效 位 ”标记 页 框 号 有 效 位 





0 03 一 0 09 1D 1 00 = 0 07 10 1 





1 13 2D 1 02 一 0 04 -= 0 0A = 0 





2 02 一 0 08 一 0 06 一 0 03 ee 0 





3 07 = 0 63 12 1 0A 34 Ei 72 SS 0 






































(a) TLB( 四 路 组 相 联 ): 4 组 、16 个 页 表 项 
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虚 页 号 ”页 框 号 有效 位 行 索引 ”标记 有效 位 字 节 3 字 节 2 字 节 1 字 节 0 ss 
00 08 1 0 19 1 12 56 C9 AC 
01 03 1 1 15 0 一 一 一 
02 14 1 曙 1B 1 03 45 Eb CD 
03 02 1 3 36 0 一 一 一 
04 一 0 4 32 1 23 34 C2 2A 
05 16 1 5 0D 1 46 67 23 3D 
06 一 0 6 00 0 一 一 一 
07 07 7 10 1 12 54 65 DC 
08 13 1 8 24 1 23 62 12 3A 
09 17 和 9 20 0 一 一 一 一 
0A 09 1 A 2D 1 43 62 23 Ch 
0B 一 0 B 00 0 一 一 一 一 
0C 19 和 C 12 1 76 83 21 35 
0D 0 D 16 1 A3 F4 23 11 
OE 11 1 E 33 1 2D 4A 45 55 
OF 0D 和 F 14 0 一 一 一 一 

(b) 部 分 页 表 ( 开 始 16 项 ) (ec) L1 数据 cache: 直接 映射 , 共 16 行 , 块 大 小 为 4B 


请 问 (假定 图 中 数据 都 为 十 六 进 制 形式 ) : 

(1) 虚拟 地 址 中 哪 几 位 表示 虚拟 页 号 ? 哪 几 位 表示 页 内 偏 移 量 ? 虚拟 页 号 中 哪 几 位 表示 TLB 标记 ? 
哪 几 位 表示 TLB 索引? 

(2) 物理 地 址 中 哪 几 位 表示 物理 页 号 ? 哪 几 位 表示 页 内 偏 移 量 ? 

(3) 主 存 物 理 地 址 如 何 划分 成 标记 字段 , 行 索引 字段 和 块 内 地 址 字段 ? 

(4) CPU 从 地 址 067AH 中 取出 的 值 为 多 少 ? 说 明 CPU 读 取 地 址 067AH 中 内 容 的 过 程 。 

25. 缓冲 区 溢出 是 指 分 配 的 某 个 内 存 区 域 ( 缓 冲 区 ) 的 大 小 比 存放 内 容 所 需 空间 小 。 例 如 ,在 栈 中 分 配 
了 一 块 空间 用 于 存放 某 个 过 程 的 一 个 字符 串 ,结果 字符 串 长 度 超过 了 分 配 空间 的 大 小 。 黑 客 往往 会 利用 
缓冲 区 溢出 来 植 人 和 人 侵 代码 。 请 说 明 可 以 采用 什么 措施 来 防止 缓冲 区 溢出 漏洞 。 





2 
互 连 及 输入 输出 组 织 


输入 输出 组 织 主要 用 于 控制 外 设 与 内 存 、 外 设 与 CPU 之 间 进 行 数据 交换 。 它 是 计算 
机 系统 中 重要 的 软 \ 硬 件 结合 的 子 系统 。 通 常 把 外 部 设备 及 其 接口 线路 .1/O 控制 部 件 以 及 
WO 软件 统称 为 输入 输出 系统 。 输 入 输出 组 织 要 解决 的 问题 是 对 各 种 形式 的 信息 进行 输入 
和 输出 的 控制 。 实 现 输入 输出 功能 的 关键 是 要 解决 以 下 一 系列 的 问题 : 如 何在 CPU \ 主 存 
和 外 设 之 间 建 立 一 个 高 效 的 信息 传输 “通路 ”; 怎样 将 用 户 的 I/O 请 求 转换 成 对 设备 的 控制 
命令 ;如 何 对 外 设 进行 编 址 ;怎样 使 CPU 方便 地 寻找 到 要 访问 的 外 设 ;I/O 硬 件 和 1/O 软件 
如 何 协 调 完 成 主机 和 外 设 之 间 的 数据 传送 等 等 。 

本 章 将 围绕 以 上 这 些 问 题 ,重点 介绍 常用 的 外 部 设备 .I/O 接口 的 功能 和 结构 、 外 部 设 
备 的 编 址 和 寻 址 ,以 及 主机 和 外 设 间 的 互 连 及 其 数据 传送 的 各 种 输入 输出 控制 方式 等 内 容 。 


8.1 外 部 设备 的 分 类 与 特点 


输入 输出 设备 (又 称 外 围 设备 或 外 部 设备 ,简称 外 设 ) 是 计算 机 系统 与 人 或 它 机 之 间 进 
行 信息 交换 的 装置 。 输 入 设备 的 功能 是 把 数据 命令 \ 字 符 、 图 形 、 图 像 、 声 音 或 电流 ,电压 等 
信息 ,以 计算 机 可 以 接收 和 识别 的 二 进 制 代码 形式 输入 到 计算 机 中 , 供 计算 机 进行 处 理 。 输 
出 设备 的 功能 是 把 计算 机 处 理 的 结果 变 成 人 最 终 可 以 识别 的 数字 、 文 字 、 图 形 、 图 像 或 声音 
等 信息 ,然后 播放 、 打 印 或 显示 输出 。 


8.1.1 外 设 的 分 类 


外 设 按 信息 的 传输 方向 来 分 ,可 分 成 输入 设备 ,输出 设备 与 输入 输出 设备 3 类 。 

(1) 输入 设备 : 包括 键盘 鼠标、 触摸 屏 、 跟 踪 球 .控制 杆 . 数 字 化 仪 . 扫 描 仪 .手写 笔 、 纸 
带 输入 机 卡片 输入 机 、 光 学 字符 阅读 机 等 。 这 类 设备 又 可 分 成 两 类 : 媒体 输入 设备 和 交互 
式 输入 设备 。 媒 体 输 入 设备 有 光学 字符 阅读 机 、 扫 描 仪 等 ,这 些 设备 把 记录 在 各 种 媒体 上 的 
信息 送 入 计算 机 ,一 般 采用 成 批 输入 方式 ,一 次 成 批 输入 一 块 数据 ,输入 过 程 中 不 需 操作 者 
干预 ,因此 这 类 设备 属于 成 块 传送 设备 ;交互 式 设备 有 键盘 、 和 鼠标、 触摸 屏 、 手 写 笔 .跟踪 球 
等 。 这 些 设备 由 操作 者 通过 操作 直接 输入 信息 。 

(2) 输出 设备 : 包括 显示 器 .打印 机 、 绘 图 仪 等 。 将 计算 机 输出 的 数字 信息 转换 成 模拟 
信息 , 送 往 自动 控制 系统 进行 过 程控 制 的 数 模 转换 设备 也 可 以 视 为 一 类 输出 设备 。 
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(3) 输入 输出 设备 : 包括 磁盘 驱动 器 、 磁 带 机 、 光 盘 驱 动 器 .CRT 终端 ,网 卡 之 类 的 通信 
设备 等 。 这 类 设备 既 可 以 输入 信息 ,又 可 以 输出 信息 。 

外 设 按 功能 来 分 ,可 分 成 人 机 交互 设备 .存储 设备 和 机 -机 通信 设备 3 种 。 

(1) 人 机 交互 设备 : 用 于 用 户 和 计算 机 之 间 交 互通 信 的 设备 ,如 键盘 .鼠标 .显示 器 、 打 
印 机 等 。 大 多 数 这 类 设备 与 主机 交换 信息 以 字符 为 单位 ,所 以 又 称 为 字符 型 设备 或 面向 字 
符 的 设备 。 

(2) 存储 设备 : 这 类 设备 用 于 存储 大 容量 数据 ,作为 计算 机 的 外 存储 器 使 用 ,如 磁盘 驱 
动 器 、 光 盘 驱 动 器 、 磁 带 机 等 。 这 类 设备 与 主机 交换 信息 时 采用 成 批 方 式 ,以 几 十 、 几 百 甚至 
更 多 字 节 组 成 的 信息 块 为 单位 ,因此 属于 成 块 传送 设备 。 

(3) 机 -机 通信 设备 : 主要 用 于 计算 机 和 计算 机 之 间 的 通信 ,如 网 卡 、 调 制 解 调 器 、 数 / 模 
和 模 / 数 转换 设备 等 。 

当然 ,外 设 的 分 类 还 有 其 他 方式 ,例如 , 按 所 处 理 信息 的 形态 来 分 ,可 分 成 处 理 数字 和 文 
字 的 设备 、 处 理 图 形 与 图 像 的 设备 以 及 处 理 声 音 与 视频 的 设备 等 等 ,这 里 不 再 袭 述 。 


8.1.2 外 设 的 特点 


外 设 种 类 繁多 ,性 能 各 异 ,但 归纳 起 来 有 以 下 几 个 特点 。 

(1) 异步 性 : 外 设 与 CPU 之 间 是 完全 异步 的 工作 方式 ,两 者 之 间 无 统一 的 时 钟 , 且 各 
类 外 设 之 间 工 作 速度 相差 很 大 ,它们 的 操作 在 很 大 程度 上 独立 于 CPU, 但 又 要 在 某 个 时 刻 
接受 CPU 的 控制 ,这 就 势必 造成 输入 输出 操作 相对 CPU 时 间 的 任意 性 与 异步 性 。 必 须 保 
证 在 连续 两 次 CPU 和 外 设 交 往 之 间 ,CPU 仍 能 高 速 地 运行 它 自己 的 程序 ,以 达到 CPU 与 
外 设 之 间 、 外 设 与 外 设 之 间 的 并 行 工作 。 

(2) 实时 性 : 一 个 计算 机 系统 中 ,可 能 连接 了 各 种 各 样 类 型 的 外 设 , 且 这 些 外 设 中 有 慢 
速 设备 ,也 有 快速 设备 ,CPU 必须 及 时 按 不 同 的 传输 速率 和 不 同 的 传输 方式 接收 来 自 多 个 
外 设 的 信息 或 向 多 个 外 设 发 送信 息 ,否则 高 速 设备 可 能 丢失 信息 。 

(3) 多 样 性 : 由 于 外 设 的 多 样 性 ,它们 的 物理 特性 差异 很 大 ,信息 类 型 与 结构 格式 多 种 
多 样 ,这 就 造成 了 主机 与 外 设 之 间 连 接 的 复杂 性 。 为 简化 控制 ,计算 机 系统 中 往往 提供 一 些 
标准 接口 ,以便 各 类 外 设 通 过 自己 的 设备 控制 器 与 标准 接口 相连 ,而 主机 无 须 了 解 各 特定 外 
设 的 具体 要 求 , 可 以 通过 统一 的 命令 控制 程序 来 实现 对 外 设 的 控制 。 


8.2 输入 设备 和 输出 设备 


最 常用 的 输入 设备 是 键盘 与 鼠标 ,相对 而 言 它们 比较 简单 。 最 常用 的 输出 设备 是 打印 
机 与 显示 器 。 下 面 对 它 们 作 简 略 介绍 。 


“8.2.1 键盘 


键盘 是 计算 机 不 可 缺少 的 最 常用 的 输入 设备 ,用 户 通过 键盘 可 向 计算 机 输入 字母 ,数字 
和 符号 。 键 盘 有 外 壳 .按键 和 电路 板 3 部 分 组 成 。 按 键 的 结构 可 归纳 成 两 类 : 一 类 是 触 点 
式 按 键 , 它 借助 触 点 开关 的 接 通 或 断 开 来 产生 电信 号 ; 另 一 类 是 非 触 点 式 开关 ,利用 电压 、 电 
流 或 电磁 场 的 变化 产生 输出 信号 。 计 算 机 中 基本 上 使 用 后 一 类 开关 。 电 路 板 中 是 键盘 控制 








计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





人 逻辑 ,由 一 些 逻 辑 电路 或 单片机 组 成 ,键盘 上 每 个 按键 发 出 的 信号 由 电路 板 转 换 为 二 进 制 代 
码 ,然后 通过 键盘 接口 送 入 计算 机 中 。 

按键 的 排列 是 一 个 mXn 的 二 维 阵列 ,每 个 按键 对 应 该 阵列 中 的 一 个 位 置 。 键 盘 采 用 
“ 按 列 扫描 、 接 地 检查 ”的 方式 进行 工作 。 具 体 过 程 如 下 : 键盘 电路 板 内 的 单片机 每 隔 3 一 
5ms 对 按键 矩阵 的 各 列 进行 顺序 扫描 ,被 扫描 列 接 0 电 平 “地 ”, 其 他 列 接 高 电 平 。 若 此 时 被 
扫描 的 列 中 正好 有 某 个 键 被 按 下 , 则 相应 的 行 和 列 被 接 通 ,因而 按键 所 在 行 输出 变 低 电 平 ， 
其 他 行 输出 为 高 电 平 。 如 图 8. 1 所 示 , 当 扫描 最 右边 一 列 时 ,该 列 第 二 行 的 “A” 键 被 按 下 ， 
所 以 ,第 二 行 的 输出 为 低 电 平 0。 此 时 ,单片机 可 根据 扫描 的 列 号 和 输出 为 0 电 平 的 行 号 得 
到 按键 的 位 置 ,位 置信 息 称 为 按键 的 “扫描 码 ? 或 “位 置 码 ”。 
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图 8.1 按键 矩阵 与 扫描 码 的 形成 


根据 键盘 输入 主机 的 信息 的 不 同 ,键盘 分 成 编码 键盘 和 非 编 码 键盘 两 类 。 

(1) 编码 键盘 : 键盘 电路 板 中 有 一 个 编码 器 ,能 将 单片机 得 到 的 位 置 码 转换 成 相应 的 
ASCII 码 送 入 主机 。 编 码 器 由 硬件 构成 ,因此 ,键盘 响应 速度 快 ,但 键盘 控制 电路 的 结构 要 
复杂 一 些 。 

(2) 非 编码 键盘 : 键盘 送 到 主机 的 信息 是 位 置 码 , 由 键盘 中 断 服 务 程序 将 位 置 码 转换 
成 ASCII 码 。 这 种 键盘 控制 电路 较 简 单 , 当然 速度 会 慢 一 些 。 但 是 ,由 于 主机 速度 远 比 人 
按键 速度 快 , 且 这 种 键盘 上 某 些 键 的 功能 可 以 通过 软件 来 重 定 义 , 使 用 灵活 ,因此 ,目前 PC 
大 多 用 这 种 键盘 。 

键盘 中 的 单片机 除了 完成 按键 扫描 和 生成 扫描 码 的 功能 之 外 , 它 还 将 扫描 码 转换 成 串 
行 形式 发 送 给 主机 ,并 具有 消除 抖动 .扫描 码 缓冲 和 自动 重复 等 功能 。 

键盘 所 发 出 的 串 行 数据 由 1 位 起 始 位 、8 位 数据 位 、1 位 奇偶 校 验 位 和 1 位 停止 位 组 成 。 
主机 的 键盘 控制 电路 接收 到 这 些 串 行 数据 后 ,去掉 起 始 位 、 校 验 位 和 停止 位 ,将 8 位 数据 通 
过 串 -并 转换 ,形成 并 行 数 据 送 入 缓冲 寄存 器 ,然后 向 CPU 发 出 键盘 中 断 请 求 ;CPU 响应 该 
中 断后 ,由 键盘 中 断 服 务 程 序 把 扫描 码 转 换 成 ASCII 码 , 然 后 送 入 主 存 中 的 键盘 数据 组 
冲 区 。 

键盘 上 也 可 输入 如 汉字 等 非 西 文字 符 , 这 由 各 种 汉字 输入 法 自行 定义 。 键 盘 位 置 码 送 
入 计算 机 后 ,经 过 汉字 输入 软件 的 处 理 , 转 换 成 该 汉字 对 应 的 内 码 ,再 进行 显示 、 存 储 等 其 他 
操作 。 

键盘 和 主机 的 接口 有 AT 接口 .PS/2 接口 和 USB 接口 3 种 。 较 早 的 机 器 采用 AT 接 
口 ( 大 五 芯 接 口 ) ,现在 台式 机 大 多 用 PS/2 接口 (小 五 芯 接口 ) 或 USB 接口 。USB 接口 支持 
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即 插 即 用 ,因而 使 用 方便 ,比较 受 欢迎 。 
“8.2.2 饼 标 器 


鼠标 器 (mouse) 是 一 种 相对 定位 设备 。 它 能 方便 地 控制 屏幕 上 的 光标 移动 到 指定 的 位 
置 , 并 通过 按键 完成 各 种 操作 。 鼠 标 器 由 于 其 外 形 如 老鼠 而 得 名 ,通过 电缆 与 主机 相连 接 。 
鼠标 器 在 桌 上 移动 ,其 底部 的 传感器 检测 出 运动 方向 和 相对 距离 , 送 入 计算 机 。 

根据 鼠标 器 所 采用 传感器 技术 的 不 同 , 鼠 标 器 可 以 分 成 两 类 : 机 械 式 与 光电 式 。 

(1) 机 械 式 鼠 标 器 : 其 底部 有 一 个 圆 球 , 鼠标 移动 时 , 圆 球 滚 动 带动 与 球 相连 的 圆 盘 。 
圆 盘 上 的 编码 器 把 运动 方向 与 距离 送 给 主机 ,经 软件 处 理 ,控制 光标 作 相 应 移动 。 该 类 鼠标 
器 简单 ,使 用 方便 ,但 也 容易 磨损 , 且 精 度 差 。 

(2) 光电 式 鼠 标 器 : 几乎 没有 任何 机 械 零 件 ,而 是 使 用 一 个 微型 光学 镜头 不 断 地 拍摄 
鼠标 下 方 的 图 像 ,数字 信号 处 理 器 (DSP) 对 获取 的 图 像 序列 中 帧 与 帧 之 间 的 变化 进行 分 析 ， 
计算 出 移动 方向 和 距离 , 送 入 计算 机 ,控制 光标 的 移动 。 这 类 鼠标 器 速度 快 ,精度 高 ,没有 任 
何 机 械 磨 损 ,使 用 寿命 长 ,不 需 鼠 标 垫 , 只 要 在 平面 上 就 能 操作 ,是 目前 比较 流行 的 鼠标 器 
类 型 。 

鼠标 器 的 技术 指标 之 一 是 分 辩 率 ,分 辩 率 越 高 , 越 有 利于 用 户 的 细微 操作 。 分 辩 率 用 
dpi(dots per inch) 表 示 , 它 指 鼠 标 在 桌 上 每 移动 一 英寸 ,光标 在 屏幕 上 所 移动 的 像素 数 。 对 
光电 鼠标 来 说 ,反映 其 性 能 的 另 一 个 指标 是 帧 速率 , 即 刷 新 频率 , 它 指 DSP 每 秒 钟 可 以 处 理 
的 图 像 帧 数 。 

鼠标 器 与 主机 相连 的 接口 主要 有 USB 或 PS/2 接口 。 早 期 的 个 人 计算 机 把 鼠标 器 接 
在 串 行 通 信 口 COMI1 或 COM2 上 ,目前 已 很 少 这 样 使 用 了 。 


“8.2.3 打印 机 


打印 机 是 计算 机 系统 中 最 基本 的 输出 设备 。 目 前 使 用 的 打印 机 主要 有 针 式 打印 机 、 激 
光 打 印 机 和 喷 墨 打印 机 3 种 。 

1. 针 式 打印 机 

击 打 式 打印 机 是 最 早 研制 成 功 的 计算 机 打印 设备 。 它 以 机 械 力量 击 打 字 锤 从 而 使 字模 
隔 着 色 带 在 纸 上 打 印 出 字 来 。 按 字 锤 或 字模 的 构成 方式 来 分 ,又 可 以 分 成 整 字形 打印 设备 
和 点 阵 打印 设备 两 类 。 整 字形 打印 设备 利用 完整 字形 的 字模 每 击 打 一 次 印 出 一 个 完整 字 
形 。 这 类 设备 的 优点 是 印字 美观 自然 ,可 同时 复印 数 份 。 缺 点 是 噪音 大 ,印字 速率 低 ,字符 
种 类 少 ,无 法 打印 汉字 或 图 形 , 且 易 磨损 ,目前 已 很 少 使 用 。 点 阵 式 打印 设备 是 利用 打印 头 
中 的 多 根 印 针 经 色 带 在 纸 上 打 印 出 点 阵 字符 的 印字 设备 ,又 称 针 式 打印 机 。 目 前 有 7 针 、9 
针 、24 针 或 48 针 的 印字 头 。 这 类 打印 设备 相对 于 整 字形 打印 设备 ,其 机 械 结构 简单 ,印字 
速度 快 ,噪声 小 ,成 本 低 , 目 前 在 银行 .证 券 等 行业 的 票据 打印 中 广泛 使 用 。 以 下 主要 介绍 点 
阵 打 印 机 的 原理 。 

点 阵 打印 机 有 串 行 打印 机 和 并 行 打印 机 两 种 。 这 里 以 串 行 打印 机 为 例 来 说 明 其 打印 
原理 。 

假定 是 24 针 打 印 机 , 即 一 列 印 针 为 24 根 ,其 印字 头 上 有 一 列 0. 2 一 0. 3mm 直径 的 印 针 
及 其 驱动 电磁 铁 ,印字 头 自 左 至 右 按 点 距 移 动 。 驱 动 印 针 的 电磁 铁 受 字符 点 阵 内 容 的 控制 : 
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有 点 的 地 方 即 打印 ,无 点 的 地 方 不 打印 。 每 完成 一 列 打 印 ,印字 头 右 移 一 个 点 距 。 如 此 一 列 
一 列 地 打印 ,直到 一 行 打印 结束 ,打印 机 走 纸 一 行 的 距离 ,印字 头 再 返回 起 始 位 置 重新 开始 
打印 。 

其 输出 数据 与 一 列 印 针 之 间 的 对 应 关系 如 图 8. 2 所 示 。 


输出 数据 印 针 排列 
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打印 驱动 程序 从 主 存 读 出 输出 点 阵 数 据 到 打印 缓存 中 。 每 读 出 3 个 字 节 , 对 应 24 针 的 
一 列 打印 数据 。 从 图 8. 2 中 可 看 出 ,打印 数据 在 打印 缓存 中 是 按 列 存放 的 ,因此 ,在 送 数据 
到 打印 缓存 之 前 ,需要 将 打印 字符 的 字模 点 阵 数据 进行 行 和 列 的 转换 。 如 此 每 3 个 字 节 地 
读 出 数据 送 打印 缓存 ,直到 一 行 读 出 完毕 ,然后 发 回 车 或 换行 命令 ,打印 机 才 真 正 把 打印 组 
存 中 的 一 行 数据 在 纸 上 打 印 出 来 。 这 里 必须 注意 的 是 输出 字符 点 阵 或 图 形 点 阵 与 打印 针 之 
间 的 对 应 关系 ,包括 高 / 低 字 节 的 安排 ,不 同类 型 的 打印 机 ,其 排列 是 有 差别 的 。 

打印 机 通过 打印 控制 器 或 打印 适配器 与 主机 连接 ,打印 控制 器 由 以 下 基本 部 件 组 成 。 

(1) 数据 锁 存 器 : 暂 存 CPU 送 来 的 打印 数据 。 该 数据 可 以 送 打 印 缓存 准备 打印 ,也 可 
以 回 送 CPU 以 便 进行 检测 用 。 

(2) 命令 译 码 器 : 对 CPU 送 来 的 命令 进行 译 码 , 产 生 打 印 控制 器 内 部 使 用 的 几 个 命 
令 , 如 数据 传输 方向 、 读 数据 、 写 数据 、 读 控制 、 写 控制 和 读 状 态 等 。 

(3) 控制 锁 存 器 : 锁 存 CPU 送 来 的 控制 命令 ,如 初始 化 、 选 通 、 自 动 走 纸 等 命令 。 这 些 
命令 也 可 以 回 送 CPU 以 便 检测 用 。 

(4) 状态 锁 存 器 : 保存 打印 机 送 来 的 状态 信息 ,如 打印 机 忙 、 缺 纸 、 联 机 、 认 可 和 出 错 
等 ,以 供 CPU 随时 检测 用 。 

图 8. 3 为 打印 机 与 主机 的 连接 示意 图 。 打 印 控制 器 与 CPU 之 间 的 连接 有 数据 线 ( 发 送 
或 接收 数据 ,状态 、 命 令 字 节 ) 地址 线 ( 选 择 打印 控制 器 中 寄存 器 的 地 址 ) 和 中 断 请求 信 和 号 
INT 等 。 打 印 控制 器 与 打印 机 之 间 若 用 25 芯 并 口 连 接 , 则 有 8 位 数据 线 DO 一 D7 ,打印 控 
制 器 送 给 打印 机 的 初始 化 、 选 通 、 自 动 走 纸 等 命令 线 ,以 及 打印 机 回 送 打印 控制 器 的 反映 打 
印 机 目前 状态 的 忙 、 缺 纸 、 联 机 出错 ,认可 等 信号 线 。 

打印 机 初始 化 主要 是 清除 打印 缓存 和 初始 化 打印 机 动作 (如 印字 头 回 到 起 始 位 置 等 ) 。 
CPU 输出 一 个 字符 后 ,要 判断 打印 机 状态 “ 忙 ” 否 。 只 有 当 打 印 机 不 忙 时 ,CPU 发 送 选 通信 
号 , 才 把 打印 数据 真正 送 到 打印 机 缓存 。 当 打印 缓存 中 接收 满 一 行 数据 后 ,CPU 发 回 车 或 
换行 信号 ,打印 机 才 真 正 完成 打印 动作 。 

打印 机 除了 能 接收 主机 送 来 的 数字 、 字 符 等 打印 信息 以 外 , 它 还 能 接收 主机 送 来 的 控制 
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8.3 打印 机 与 主机 的 连接 


打印 机 执行 特定 动作 的 命令 ,这 些 命令 通常 称 为 不 可 打印 字符 。 这 些 特定 字符 分 成 两 类 : 
第 一 类 是 回 车 (CR) ,换行 (LF) 、 删 除 (DEL) 、 响 铃 (BELL) 等 使 打印 机 执行 某 特定 动作 的 字 
符 , 其 值 可 见 ASCII 码 表 ,不 同 打 印 机 的 码 值 不 变 ;第 二 类 是 ESC 命令 序列 ,或 称 “ 换 码 ” 序 
列 。 其 命令 格式 中 ,第 一 个 字符 固定 为 ESC, 后 跟 一 个 或 多 个 ASCII 字符 。 只 有 当 打 印 机 
接收 到 一 个 完整 的 命令 序列 以 后 , 才 完 成 规定 的 控制 功能 。 打 印 机 不 同 ,往往 命令 序列 格式 
也 不 一 样 ,因此 ,很 多 情况 下 ,打印 驱动 程序 是 不 兼容 的 。 

2. 激光 打印 机 

激光 打印 机 印刷 速度 快 ,印字 质量 好 ,噪音 低 ,分 辩 率 高 ,印刷 输出 成 本 低 , 是 目前 应 用 
最 广泛 的 一 种 非 击 打 式 印字 机 。 

激光 打印 机 由 打印 机 控制 器 和 打印 装置 两 部 分 组 成 。 打 印 机 控制 器 一 般 由 功能 较 强 的 
处 理 器 \ 缓 冲 存储 器 以 及 相应 的 辅助 电路 构成 ,负责 与 主机 的 通信 、 解 释 主机 送 来 的 打印 语 
言 ( 包 括 打 印 机 控制 命令 、 页 面 格式 命令 ,字体 处 理 命令 、 图 形 命令 等 ) .格式 化 打印 内 容 ( 如 
纸张 尺寸 .边界 设 定 、 字 符 的 大 小 与 位 置 等 )、 光 栅 化 处 理 ( 把 经 过 格式 化 的 页 面 数据 转换 成 
点 阵 数据 ) 等 ,然后 送 打印 装置 进行 输出 。 

如 果 是 彩色 激光 打印 机 ,一 般 带 有 多 种 颜色 的 硒鼓 ,最 典型 的 是 C( 青 色 )、M( 品 红 )、 
Y( 黄 色 ) 、K( 黑 色 )4 种 颜色 。 彩 色 印 刷 过 程 可 先 由 处 理 器 把 彩色 图 像 分 解 成 CM、Y、K 
4 种 单 色 的 图 像 ( 称 为 “分 色 ” 过 程 ), 再 由 打印 装置 分 4 次 套色 印刷 来 完成 。 

打印 语言 是 一 组 控制 打印 机 工作 的 命令 ,打印 机 按照 这 些 命令 来 处 理 主机 送 来 的 打印 
数据 ,并 最 终 打印 出 复杂 的 文字 与 图 像 。 打 印 语言 大 体 分 成 两 类 : 一 类 是 页 面 描述 语言 
(PDL), 其 中 以 Adobe 公司 的 PostScript 语言 最 为 流行 ; 另 一 类 是 Escape 码 语言 ,其 中 以 
HP 公司 的 PCL 语言 最 为 流行 。 

喷 墨 打印 机 也 是 一 种 非 击 打 式 打印 机 , 它 利 用 喷 墨 头 喷 射出 可 控 的 墨 滴 从 而 在 打印 纸 
上 形成 文字 或 图 片 ,也 是 目前 应 用 较 多 的 一 种 打印 输出 设备 。 

过 去 ,打印 机 与 主机 的 接口 主要 是 25 芯 的 并 行 口 ,不 支持 即 插 即 用 ,带电 插 拔 时 ,一 不 
小 心 就 烧 坏 机 器 ,很 不 方便 。 现 在 大 多 数 激光 打印 机 和 喷 墨 打印 机 都 已 经 采用 USB 接口 和 
主机 连接 ,高 速 打印 机 也 可 以 用 SCSI 接口 和 主机 相连 。 


“8.2.4 显示 器 


显示 器 是 用 来 显示 数字 字符、 图 形 和 图 像 的 设备 , 它 由 显示 器 (也 称 监 视 器 ) 和 显示 控 
制 器 组 成 ,是 计算 机 系统 中 最 常用 的 输出 设备 之 一 。 计 算 机 使 用 的 显示 器 主要 分 为 两 种 : 
阴极 射线 管 CCRT) 显示器 以 及 目前 流行 的 LCD( 液 晶 显 示 器 ) 。 
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1. CRT 显示 器 

早期 常用 的 显示 器 是 CRT 显示 器 。CRT 显示 器 由 阴极 射线 管 (CCRT) .亮度 控制 电路 
(控制 栅 ) 以 及 扫描 偏转 电路 (水 平 /垂直 扫描 偏转 线圈 ) 等 部 件 构成 。 

CRT 显示 器 采用 光栅 扫描 的 方式 显示 图 像 。 电 子 束 在 水 平 同 步 信 号 和 垂直 同步 信号 
的 控制 下 ,在 屏幕 上 按 行 优 先 的 方式 形成 光 点 。 从 左 向 右 进行 行 扫描 ,每 扫描 完 一 行 ,就 进 
行 一 次 水 平行 回 扫 , 回 到 最 左边 ,再 进行 下 一 行 水 平 扫描 ,所 有 行 扫描 后 形成 一 帧 图 像 ;然后 
进行 垂直 回 扫 , 回 到 左上 角 ,重复 进行 下 一 由 图 像 的 扫描 。 水 平 扫描 周期 的 倒数 称 为 行 频 ， 
垂直 扫描 周期 的 倒数 称 为 帧 频 , 也 称 刷 新 频率 。 

CRT 显示 器 有 3 个 电子 枪 ,射出 的 电子 流 必须 精确 聚集 ,否则 就 得 不 到 清晰 的 图 像 显 
示 。 因 此 ,CRT 显示 器 可 能 会 因 聚 焦 不 准 而 造成 图 像 模糊 ;此 外 , 它 还 有 体积 大 、 能 耗 高 的 
缺点 。 目 前 CRT 显示 器 已 经 逐步 为 液晶 显示 器 所 取代 。 

2. 液晶 显示 器 

液晶 显示 器 的 基本 原理 是 基于 液晶 如 下 的 物理 特性 : 液晶 通电 时 会 改变 其 排列 次 序 ， 
从 而 影响 光线 的 通过 。 

因为 每 个 液晶 单元 都 是 独立 开 和 关 , 不 存在 聚焦 问题 ,因此 ,LCD 屏幕 上 图 像 非常 清 
晰 ;同时 ,LCD 不 需要 采用 CRT 显示 器 那样 的 光栅 扫描 ,因此 也 没有 屏幕 闪烁 问题 。 由 于 
有 具有 体积 小 、 耗 电 低 \ 不 闪烁 等 优点 和 良好 的 综合 性 能 ,LCD 目前 已 广泛 应 用 于 便携 式 计算 
机 数码 相机 和 电视 机 等 设备 。 当 然 ,LCD 也 存在 价格 高 .视角 不 广 以 及 彩色 显示 不 够 鲜艳 
等 缺点 。 

通常 ,显示 器 工作 时 有 两 种 模式 。 一 种 是 字符 模式 ,显示 存储 器 (简称 显存 .VRAM ,也 
称 刷新 存储 器 ) 中 存放 的 是 字符 的 编码 (ASCII 码 或 汉字 代码 ) 及 其 属性 (如 加 亮 、 闪 烁 等 )， 
其 字形 信息 存放 在 字符 发 生 器 中 。 另 一 种 是 图 形 模 式 , 此 时 每 一 字符 的 点 阵 信息 直接 存储 
在 显示 存储 器 中 ,字符 在 屏幕 上 的 显示 位 置 可 以 定位 到 任意 点 。 

彩色 或 单 色 多 级 灰 度 图 像 显示 时 ,每 一 个 像素 需要 使 用 多 个 二 进位 来 表示 ,每 个 像素 对 
应 的 二 进位 数 称 为 颜色 深度 。 例 如 , 若 颜色 深度 为 8bit, 则 可 以 有 256 色 ; 若 颜色 深度 为 
24bit, 则 可 达 16M 种 颜色 ( 称 为 真 彩色 )。 在 图 形 显 示 模 式 下 ,显示 控制 器 (CRTC) 除 了 完 
成 前 述 的 两 个 基本 功能 外 ,还 能 实现 画图 功能 。 显 示 控 制 器 接收 并 实现 CPU 送 来 的 画图 
命令 ,并 将 结果 写 人 显存 ;同时 ,显示 控制 器 读 出 显存 内 容 , 经 并 / 串 变换 和 数 / 模 转 换 后 , 送 
显示 器 R、G、B 3 个 不 同 的 颜色 控制 信号 ,从 而 在 屏幕 上 显示 出 彩色 图 形 ,显示 控制 器 的 功 
能 越 来 越 强 ,除了 完成 二 维 画 图 命令 以 外 ,还 具有 三 维 图 形 显示 功能 。 它 可 以 集成 在 主板 
上 ,也 可 以 以 图 形 显示 卡 ( 简 称 显卡 ) 的 方式 插 在 主板 扩充 槽 中 。 

显卡 的 核心 是 绘图 处 理 器 (Graphics Processing Unit,GPU)。 早 期 的 绘图 功能 都 由 
CPU 在 内 存 中 完成 ,然后 将 生成 的 图 像 位 图 从 内 存 传送 到 显存 中 。 这 种 方案 显然 加 重 了 
CPU 的 工作 量 , 并 且 绘图 速度 慢 。 目 前 显卡 中 的 GPU 专门 用 来 进行 绘图 , 它 有 一 组 可 高 速 
执行 的 适用 于 图 像 和 图 形 处 理 的 指令 ,如 数据 块 传送 、 基 本 图 形 绘制 .区 域 填空 、 图 案 填 空 、 
图 形 缩放 、 颜 色 转 换 等 。 由 于 采用 专用 处 理 器 实现 ,所 以 图 形 操 作 速 度 快 ,并 且 大 大 减轻 了 
CPU 的 负担 。 
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8.3 外 部 存储 设备 


8.3.1 磁 表 面 存储 原理 


磁 表 面 存储 器 包括 磁 鼓 、 磁 带 、 磁 盘 和 磁卡 片 等 。 目 前 ,在 计算 机 系统 中 以 磁盘 和 磁 
带 为 主 。 磁 表面 存储 器 主要 用 作 计 算 机 存储 系统 中 的 辅 存 , 它 可 以 存储 大 量 的 程序 和 
数据 。 

1. 磁 层 和 磁头 

磁 表 面 存 储 器 中 信息 的 存 取 主 要 由 磁 层 和 磁头 来 完成 。 磁 层 是 存放 信息 的 介质 , 它 由 
非 矩 形 剩 磁 特性 的 导 磁 材料 (如 氧化 铁 、 镍 钴 合金 等 ) 构 成 。 将 这 种 材料 制 成 的 磁 胶 涂 数 或 
镀 在 载 磁体 上 ,其 厚度 通常 为 0.1~5pm, 以 记录 信息 。 载 磁体 可 以 是 金属 合金 ( 硬 质 载 磁 
体 ) 或 者 是 塑料 ( 软 质 载 磁体 )。 

为 获得 良好 的 技术 性 能 , 磁 层 材料 的 剩 磁 (BR) 要 大 , 矫 奖 力 (HC) 要 合适 ,才能 有 足够 
的 抗 干扰 能 力 和 使 用 较 小 的 写 电流 。 磁 层 厚 度 要 薄 , 才 能 提高 记录 密度 。 此 外 ,对 生成 磁 层 
的 工艺 ,机 械 性 能 等 也 有 一 定 的 要 求 。 

磁头 是 实现 磁 - 电 和 电 - 磁 转换 的 元 件 。 它 是 由 高 导 磁 率 的 软 磁 性 材料 做 成 铁 芯 ,在 铁 
芯 上 开 有 缝隙 并 绕 有 线圈 。 当 载 磁体 与 磁头 做 相对 运动 时 , 若 写 磁头 线圈 通 以 磁化 电流 , 则 
可 将 信息 写 到 磁 层 上 ; 当 读 磁头 通过 磁 层 上 某 一 磁化 单位 而 形成 磁 通 回路 时 , 磁 通 的 变化 使 
线圈 两 端 产生 感应 电势 ,形成 读 出 信号 。 

磁头 质量 的 好 坏 不 仅 与 铁 芯 的 材料 有 关 , 而 且 与 磁头 加 工 工艺 有 关 。 如 磁头 中 的 颖 际 
形状 和 尺寸 将 直接 影响 记录 密度 和 读 出 幅度 。 磁 头 一 般 分 读 磁 头 、 写 磁头 和 读 / 写 磁头 ,其 
铁 芯 上 的 线圈 分 别称 为 读 线圈 、 写 线圈 和 读 / 写 线圈 。 

2. 磁 表 面 存储 器 的 读 写 过 程 

在 磁 表面 存储 器 中 ,一 般 都 使 磁头 固定 ,而 磁 层 ( 载 磁体 ) 作 高 速 回 转 或 匀速 直线 运动 。 
在 这 种 相对 运动 中 ,通过 磁头 (其 缝隙 对 准 磁 层 ) 进 行 信息 存 取 。 

1) 信息 写 人 过 程 

磁头 写 线圈 中 通 以 写 电流 脉冲 ,此 电流 在 铁 芯 中 生成 磁场 ,其 磁头 缝隙 处 的 磁场 穿 过 磁 
层 中 的 一 个 微小 区 域 ,使 该 区 域 的 磁 层 以 一 定 方向 被 磁化 ,形成 一 个 磁化 单元 ,而 写 电流 脉 
冲 消失 后 , 磁 层 仍 保持 该 方向 的 剩 磁 状态 十 BR 或 一 BR, 利 用 这 两 种 稳定 的 剩 磁 状态 ,可 以 
表示 二 进 制 代码 的 0 和 1。 显然 ,一 个 磁化 单元 就 是 一 个 存储 元 ,存储 一 位 二 进 制 信息 。 当 
磁 层 相对 于 磁头 运动 时 ,就 可 以 连续 写 人 一 连 串 的 二 进 制 信息 ,这 就 是 信息 的 写 人 过 程 。 

2) 信息 读 出 过 程 

读 出 时 ,磁头 与 磁 层 同 样 做 相对 运动 。 当 磁 层 中 某 一 记录 单元 运动 到 磁头 缝隙 下 面 时 ， 
由 于 磁头 铁 芯 是 良好 的 导 磁 材料 ,磁化 单元 的 磁力 线 很 容易 通过 磁头 而 形成 闭合 磁 通 回路 。 
由 于 磁头 中 的 磁 阻 比 其 周围 空气 的 磁 阻 小 得 多 , 便 在 磁头 中 产生 较 大 的 磁 通 变化 ,因而 在 读 
线圈 的 两 端 产生 较 大 的 感应 电势 下 ,经 读 出 放大 电路 整形 和 放大 后 成 为 读 出 信号 。 由 于 不 
同 极 性 的 磁化 单元 在 铁 芯 中 的 方向 不 同 , 因 而 形成 的 感应 电势 E 的 方向 也 不 同 ,从 而 可 区 
别 读 出 的 是 0 还 是 1。 图 8.4 是 一 段 磁 化 单元 的 读 出 过 程 示意 图 。 
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图 8.4 磁化 单元 的 读 出 过 程 


3. 磁 表 面 存储 器 的 性 能 指标 

1) 记录 密度 

记录 密度 可 用 道 密度 和 位 密度 来 表示 。 磁 道 是 在 磁 层 运动 方向 上 被 磁头 扫 过 的 轨迹 。 
一 个 磁 表面 会 有 许多 磁道 。 在 沿 磁道 分 布 方向 上 ,单位 长 度 内 的 磁道 数目 叫 道 密度 。 常 用 
的 道 密度 单位 为 tpi( 每 英寸 磁道 数 ) 和 tpm( 每 毫米 磁道 数 )。 在 沿 磁道 方向 上 ,单位 长 度 内 
存放 的 二 进 制 信息 的 数目 叫 位 密度 。 常 用 的 位 密度 单位 为 bpi( 每 英寸 二 进 制 位 数 ) 和 bpm 
(每 毫米 二 进 制 位 数 ) 。 

图 8.5 是 磁盘 盘面 上 的 道 密度 和 位 密度 示意 图 。 左 边 采 用 的 是 低 密 度 存储 方式 ,所 有 
磁道 上 的 扇 区 数 相同 ,所 以 每 个 磁道 上 的 位 数 相同 ,因而 内 道上 的 位 密度 比 外 道 位 密度 高 ; 
右边 采用 的 是 高 密度 存储 方式 ,每 个 磁道 上 的 位 密度 相同 ,所 以 外 道上 的 扇 区 数 比 内 道上 扇 
区 数 多 ,因而 整个 磁盘 的 容量 比 低 密度 盘 高 得 多 。 
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图 8.5 磁盘 盘面 上 的 记录 密度 示意 图 
2) 存储 容量 
存储 容量 指 整个 存储 器 所 能 存放 的 二 进 制 信息 量 。 它 与 磁 表面 大 小 和 记录 密度 密切 


相关 。 

3) 平均 存 取 时 间 (average access time) 

磁 表 面 存储 器 的 读 写 是 在 磁 层 相对 磁头 做 匀速 运动 的 过 程 中 完成 的 。 由 于 主机 对 存储 
器 读 写 数据 的 随机 性 ,很 难保 证 磁 层 上 所 需要 读 写 的 数据 块 位 置 正好 处 于 磁头 下 方 。 因 此 ， 
存 取 时 间 应 包括 磁头 定位 和 数据 传输 等 多 个 部 分 的 时 间 。 
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4) 数据 传输 速率 

数据 传输 速率 是 指 磁 表面 存储 器 完成 磁头 定位 和 旋转 等 待 以 后 ,单位 时 间 内 从 存储 介 
质 上 读 出 或 写 入 的 二 进 制 信息 量 。 为 区 别 于 外 部 数据 传输 率 ,通常 称 之 为 内 部 传输 速率 
(internal transfer rate) ,也 称 为 持续 传输 速率 (sustained transfer rate) 。 而 外 部 传输 速率 
(external transfer rate) 是 指 主 机 中 的 外 设 控制 接口 从 (向 ) 外 存储 器 的 缓存 读 出 ( 写 人 ) 数 
据 的 速度 ,由 外 设 采用 的 接口 类 型 决定 。 通 常 称 外 部 传输 速率 为 突 发 数据 传输 速率 (burst 
data transfer rate) 或 接口 传输 速率 。 

4. 数据 记录 方式 

数据 记录 方式 是 指 将 数字 信息 转换 成 磁 层 表面 的 磁化 单元 所 采用 的 各 种 方式 。 由 于 磁 
化 过 程 是 通过 在 磁头 中 通 以 磁化 电流 来 实现 的 , 故 记录 方式 取决 于 写 电流 波形 的 组 合 方式 。 
记录 方式 的 选取 将 直接 影响 到 记录 和 密度、 存储 容量 、 传 送 速 率 以 及 读 写 的 控制 逻辑 。 

数据 记录 方式 按照 写 信 息 所 施加 的 电流 波形 的 极 性 、 频 率 和 相位 的 不 同 ,分 为 归 零 制 、 
不 归 零 制 . 调 相 制 和 调频 制 等 。 归 零 制 (RZ 制 ) 方 式 时 , 写 1 用 正 脉冲 , 写 0 用 负 脉 冲 ,一 位 
信息 写 完 后 ,电流 总 回归 到 0。 不 归 零 -1 制 (NRZ-1 制 ) 方 式 时 , 写 电流 只 在 写 1 时 改变 方 
向 , 写 0 时 写 电 流 不 变 , 所 以 又 称 作 “ 见 1 就 翻 "不 归 零 制 。 调 相 制 (PM 制 ) 是 利用 写 电 流 的 
相位 不 同 实 现 写 1 和 写 0 的 一 种 记录 方式 。 调 频 制 (FM 制 ) 方 式 下 , 写 入 0 和 1 时 磁头 所 
加 的 写 电流 的 频率 不 同 。 

改进 调频 制 (MFM 制 ) 和 调频 制 的 区 别 在 于 去 掉 了 宛 余 信息 ,其 特点 是 : 写 电流 不 是 
在 每 个 位 周期 的 起 始 处 都 翻转 ,而 只 有 连续 记录 两 个 或 两 个 以 上 0 时 , 才 在 位 周期 的 起 始 处 
翻转 一 次 ; @ 逢 1 在 位 中 央 翻 转 一 次 。 这 样 , 仍 保持 了 自 同 步 能 力 ,记录 密度 又 得 到 了 提 
高 , 故 又 称 倍 密度 记录 方式 ,在 磁盘 中 得 到 广泛 应 用 。 


8.3.2 硬盘 存储 器 


硬盘 存储 器 具有 记录 密度 高 .容量 大 、 速 度 快 等 优点 ,是 目前 计算 机 存储 系统 中 使 用 最 
普遍 的 一 种 外 部 存储 器 。 

磁盘 存储 器 有 硬盘 和 软盘 两 种 ,软盘 因 携带 方便 、 价 格 便宜 而 曾经 被 广泛 使 用 ,但 近年 
来 由 于 DU 盘 的 出 现 , 使 得 软盘 逐步 被 容量 大 、 使 用 和 携带 更 方便 的 U 盘 所 淘汰 。 因 此 ,以 下 
主要 介绍 硬盘 存储 器 。 

硬盘 存储 器 的 逻辑 结构 如 图 8. 6 所 示 。 

它 主要 由 磁 记 录 介 质 、 硬 盘 驱 动 器 、 硬 盘 控 制 器 三 大 部 分 组 成 。 硬 盘 控 制 器 包括 控制 罗 
辑 、 时 序 电 路 、 并 / 串 转换 和 串 / 并 转换 电路 。 硬 盘 驱 动 器 包括 读 写 电路 、 读 写 转换 开关 、 读 写 
磁头 与 磁头 定位 伺服 系统 。 

1) 硬盘 驱动 器 

图 8.7 是 硬盘 驱动 器 的 物理 组 成 和 内 部 逻辑 结构 示意 图 。 

图 8.7(a) 所 示 是 硬盘 驱动 器 的 物理 组 成 ,主要 由 1 一 5 张 硬盘 片 主轴、 主轴 电机 、 移 动 
臂 、 磁 头 和 控制 电路 等 部 分 组 成 ,通过 接口 与 磁盘 控制 器 连接 ,每 个 盘 片 的 两 个 面 上 各 有 一 
个 磁头 ,因此 ,磁头 号 就 是 盘面 号 。 磁 头 和 盘 片 相对 运动 形成 的 圆 构成 一 个 磁道 (track) , 磁 
头 位 于 不 同 的 半径 上 , 则 得 到 不 同 的 磁道 。 多 个 盘 片 上 相同 磁道 形成 一 个 柱 面 (cylinder)， 
所 以 ,磁道 号 就 是 柱 面 号 。 信 息 存储 在 盘面 的 磁道 上 ,而 每 个 磁道 被 分 成 若干 扇 区 
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(b) 硬盘 驱动 器 的 内 部 逻辑 结构 
8.7 硬盘 驱动 器 的 物理 组 成 和 内 部 逻辑 结构 


(sector)。 在 读 写 磁盘 时 ,总 是 写 完 一 个 柱 面 上 所 有 的 磁道 后 ,再 移 到 下 一 个 柱 面 。 磁 道 从 
外 向 里 编 址 ,最 外 面 的 为 磁道 0。 每 个 磁道 按 扇 区 为 单位 进行 磁盘 读 写 。 

图 8.7(b) 所 示 是 硬盘 驱动 器 的 内 部 逻辑 。 磁 盘 读 写 是 指 根据 主机 访问 控制 字 中 的 盘 
地 址 ( 柱 面 号 \ 磁 头号 、 扇 区 号 ) 读 写 目标 磁道 中 的 指定 扇 区 。 因 此 ,其 操作 可 归纳 为 寻 道 , 旋 
转 等 待 和 读 写 三 大 类 。 

(1) 寻 道 操作 : 硬盘 控制 器 把 磁盘 地 址 送 到 磁盘 驱动 器 的 磁盘 地 址 寄存 器 后 , 便 产 生 
寻 道 命令 ,启动 磁头 定位 伺服 系统 进行 磁头 定位 操作 。 此 操作 完成 后 ,发 出 寻 道 结 束 信号 给 
磁盘 控制 器 ,并 转 人 旋转 等 待 操作 。 

(2) 旋转 等 待 操作 : 盘 片 旋转 时 ,索引 标志 产生 的 脉冲 将 扇 区 计数 器 清 零 ,以 后 每 来 一 
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个 扇 区 标志 , 扇 区 计数 器 加 1, 把 计数 内 容 与 磁盘 地 址 寄存 器 中 的 扇 区 地 址 进行 比较 ,如 果 
一 致 , 则 输出 扇 区 符合 信号 ,说 明 要 读 写 的 信息 已 经 转 到 磁头 下 方 。 

(3) 读 写 操作 : 扇 区 符合 信号 送 给 控制 器 后 ,控制 器 的 读 写 控制 电路 开始 动作 。 如 果 
是 写 操作 ,就 将 数据 送 到 写 人 电路 , 写 人 电路 根据 记录 方式 生成 相应 的 写 电 流 脉 冲 ; 如 果 是 
读 操 作 , 则 由 读 出 放大 电路 读 出 内 容 送 磁 盘 控 制 器 。 

2) 硬盘 控制 器 

硬盘 控制 器 是 主机 与 硬盘 驱动 器 之 间 的 接口 。 磁 盘存 储 器 是 高 速 外 设 , 所 以 磁盘 控制 
器 和 主机 之 间 采 用 成 批 数据 交换 方式 。 

主机 与 磁盘 控制 器 数据 交换 的 控制 逻辑 如 图 8. 8 所 示 。 磁 盘 上 的 数据 由 读 磁 头 读 出 后 
送 到 读 出 放大 器 ,然后 进行 数据 与 时 钟 的 分 离 ,再 进行 串 / 并 数据 转换 和 格式 变换 送 到 数据 
缓冲 器 ,经 DMA 控制 将 数据 传送 到 主 存储 器 。 
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8.8 硬盘 控制 器 接口 逻辑 


磁盘 控制 器 与 磁盘 驱动 器 之 间 并 没有 明确 的 界线 ,两 者 之 间 交 界面 的 划分 有 几 种 方式 。 
如 果 交 界面 设 在 图 8. 8 的 A 点 ,驱动 器 只 完成 读 写 和 放大 ,数据 分 离 后 的 控制 逻辑 都 划 和 人 
磁盘 控制 器 ,例如 ST506 磁盘 控制 器 就 是 这 样 。 若 交界 面 设 在 图 8. 8 的 B 点 , 则 在 驱动 器 
中 包含 数据 分 离 电路 ,而 磁盘 控制 器 仅 有 串 / 并 数据 转换 和 格式 变换 等 逻辑 。 例 如 ESDI 接 
口 属于 这 种 形式 。 第 三 种 方式 的 交界 面 设 在 图 8. 8 的 C 点 ,全 部 控制 功能 均 在 驱动 器 内 ， 
主机 与 盘 驱 动 器 之 间 采 用 标准 的 通用 接口 ,例如 SCSI 接口 则 属于 这 种 形式 。 

3) 磁盘 的 记录 格式 

数据 在 磁盘 上 的 记录 格式 分 定 长 记录 格式 和 不 定 长 记录 格式 两 种 。 目 前 大 多 采用 定 长 
记录 格式 。 图 8. 9 是 温 切 斯 特 磁 盘 的 磁道 格式 示意 图 , 它 采 用 定 长 记录 格式 。 最 早 的 硬盘 
由 IBM 公司 开发 , 称 为 温 切 斯 特 (Winchester, 是 一 个 地 名 ) 盘 ,简称 温 盘 , 它 是 几乎 所 有 现 
代 硬 盘 产 品 的 原型 。 

每 个 磁道 由 若干 个 扇 区 (也 称 扇 段 ) 组 成 ,每 个 扇 区 记录 一 个 数据 块 ,每 个 鹿 区 有 头 空 、 
ID 域 .间隙 数据 域 和 尾 空 组 成 。 头 空 占 17 个 字 节 ,不 记录 数据 ,用 全 1 表示 ,磁盘 转 过 该 
区 域 的 时 间 是 留 给 磁盘 控制 器 作 准 备用 的 ;ID 域 由 同步 字 节 、 磁 道 号 、 磁 头号 、 扇 段 号 和 相 
应 的 CRC 码 组 成 ,同步 字 节 标志 ID 域 的 开始 ;数据 域 占 515 个 字 节 , 由 同步 字 节 数据 和 相 
应 的 CRC 码 组 成 ,其 中 真正 的 数据 区 占 512 字 节 ; 尾 空 是 在 数据 块 的 CRC 码 后 的 区 域 , 占 
20 个 字 节 ,也 用 全 1 表示 。 

4) 硬 磁盘 的 主要 技术 指标 

硬 磁盘 的 未 格式 化 容量 是 指 按 道 密度 和 位 密度 计算 出 来 的 容量 , 它 包 括 了 头 空 ID 域 、 
CRC 码 等 信息 ,是 可 利用 的 所 有 磁化 单元 的 总 数 ,未 格式 化 容量 (或 非 格式 化 容量 ) 比 格式 
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物理 扇 区 0 物理 扇 区 1 物理 扇 区 29 

1 1 1 1 1 
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图 8.9 温 切 斯 特 磁盘 的 磁道 记录 格式 


化 后 的 实际 容量 要 大 。 

对 于 低 密度 存储 方式 ,因为 每 个 磁道 的 容量 相等 ,所 以 ,其 未 格式 化 容量 的 计算 方法 为 

磁盘 总 容量 = 二 记录 面 数 X 理 论 柱 面 数 X 内 圆周 长 X 位 密度 

由 于 磁盘 每 面 的 有 效 记 录 区 域 是 一 个 环 , 磁 道 在 这 个 环 内 沿 径 向 分 布 。 故 理论 上 的 柱 
面 数 应 该 等 于 : (有效 记录 区 外 径 一 有 效 记 录 区 内 径 ) 二 2X 道 密度 。 此 外 ,对 于 每 个 磁道 具 
有 同样 多 信息 的 磁盘 ,其 内 圆 磁道 的 记录 密度 最 大 ,一 个 磁道 能 记录 的 二 进 制 信息 位 的 理论 
值 应 等 于 内 圆周 长 X 位 密度 。 

格式 化 后 的 实际 容量 只 包含 数据 区 。 通 常 ,记录 面 数 约 为 盘 片 数 的 两 倍 。 假 定 按 每 个 
扇 区 512 字 节 算 , 则 磁盘 实际 数据 容量 (也 称 格式 化 容量 ) 的 计算 公式 为 

磁盘 实际 数据 容量 = 王 2X 盘 片 数 X 磁 道 数 / 面 X 扇 区 数 /磁道 X512B/ 扇 区 

近 三 十 年 来 扇 区 大 小 一 直 是 512 字 节 ,但 最 近 几 年 正在 逐步 更 换 到 更 大 、 更 高 效 的 
4096 字 节 扇 区 ,通常 称 为 4K 扇 区 。 国 际 硬盘 设备 与 材料 协会 (IDEMA) 将 之 称 为 高 级 格 
式 化 。 

前 面 已 经 提 到 ,数据 传输 率 是 单位 时 间 内 从 磁盘 盘面 上 读 出 或 写 人 的 二 进 制 信息 量 。 
由 于 磁盘 在 同一 时 刻 只 有 一 个 磁头 进行 读 写 ,所 以 数据 传输 率 等 于 单位 时 间 内 磁头 划 过 的 
磁道 弧 长 乘 以 位 密度 。 即 : 

数据 传输 率 二 每 分 钟 转速 二 60X 内 圆周 长 X 位 密度 

磁盘 响应 读 写 请 求 的 过 程 如 下 : 首先 将 读 写 请 求 在 队列 中 排队 ,出 队列 后 由 磁盘 控制 
器 解析 请 求 命令 ,然后 进行 寻 道 、 旋 转 等 待 和 读 写 数 据 3 个 过 程 。 

因此 ,总 的 响应 时 间 的 计算 公式 为 

响应 时 间 三 排队 延迟 十 控制 器 时 间 十 寻 道 时 间 十 旋转 等 待 时 间 十 数据 传输 时 间 

磁盘 上 的 信息 以 扇 区 为 单位 进行 读 写 ,上 式 中 后 面 3 个 时 间 之 和 称 为 平均 存 取 时 间 
工 。 即 : 

T= 二 寻 道 时 间 十 旋转 等 待 时 间 十 数据 传输 时 间 

寻 道 时 间 为 磁头 移动 到 指定 磁道 所 需 时 间 ;旋转 等 待 时 间 指 要 读 写 的 扁 区 旋转 到 磁头 

下 方 所 需要 的 时 间 ; 数 据 传输 时 间 (transfer time) 指 传输 一 个 扇 区 的 时 间 ( 大 约 0. 01ms/ 扇 
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区 ) 。 由 于 磁头 原 有 位 置 与 要 寻找 的 目的 位 置 之 间 远 近 不 一 , 故 寻 道 时 间 和 旋转 等 待 时 间 只 
能 取 平 均值 。 磁 盘 的 平均 寻 道 时 间 一 般 为 5 一 10ms ,平均 等 待 时 间 取 磁 盘旋 转 一 周 所 需 时 
间 的 一 半 ,大约 4 一 6ms。 假 如 磁盘 转速 为 6000 转 / 分 , 则 平均 等 待 时 间 约 为 5ms。 因 为 数 
据 传 输 时 间 相 对 于 寻 道 时 间 和 等 待 时 间 来 说 非常 短 , 所 以 ,磁盘 平均 存 取 时 间 通 常 近 似 等 于 
平均 寻 道 时 间 和 平均 等 待 时 间 之 和 。 

硬 磁 盘 驱动 器 与 主机 的 接口 有 多 种 ,一 般 文件 服务 器 使 用 SCSI 接口 ,而 普通 的 PC 前 
些 年 多 使 用 并 行 ATA( 即 IDE) 接 口 , 目 前 大 多 使 用 串 行 ATA( 即 SATA) 接 口 。 


8.3.3 元 余 磁 盘 阵 列 


计算 机 发 展 过 程 中 ,人 们 比较 注重 处 理 器 和 主 存 性 能 的 改进 ,而 对 辅 存 性 能 的 改进 不 太 
注重 ,因而 造成 CPU 和 主 存 的 性 能 提高 得 比 辅 存 快 ,使 总 体 性 能 提高 不 均衡 。 为 了 改善 磁 
盘存 储 器 的 性 能 ,1988 年 美国 加 州 大 学 伯克利 分 校 一 个 研究 小 组 提出 了 一 种 称 为 RAID 
(Redundant Arrays of Inexpensive Disk, 廉价 磁盘 宛 余 阵列 ) 的 技术 ,大 大 改善 了 辅 存 的 
性 能 。 

RAID 技术 的 基本 思想 是 : 将 多 个 独立 操作 的 磁盘 按 某 种 方式 组 织 成 磁盘 阵列 ,以 增 
加 容量 ;利用 类 似 于 主 存 中 的 多 模块 交叉 技术 将 数据 存储 在 多 个 盘 体 上 ,通过 使 这 些 盘 并 行 
工作 来 提高 数据 传输 速度 ;并 用 宛 余 磁盘 技术 来 进行 错误 恢复 以 提高 系统 可 靠 性 。 

RAID 技术 有 以 下 3 个 特性 : 

(1) RAID 由 一 组 物理 磁盘 驱动 器 组 成 ,在 操作 系统 下 它们 被 视 为 单个 逻辑 驱动 器 。 

(2) 数据 分 布 在 一 组 物理 磁盘 上 ,可 以 连续 分 布 ,也 可 以 交叉 分 布 ,交叉 分 布 时 可 以 按 
小 条 带 交叉 分 布 , 也 可 以 按 大 数据 块 交叉 分 布 。 

(3) 宛 余 磁盘 用 于 存储 校 验 信 息 , 保 证 磁盘 万 一 损坏 时 能 恢复 数据 。 

目前 已 知 的 RAID 方案 分 为 8 级 (0 一 7 级 ) ,并 由 此 派生 出 RAID 10( 结 合 0 级 和 1 级 ) 
和 RAID 30( 结 合 0 级 和 3 级) 和 RAID 50( 结 合 0 级 和 5 级 )。 但 这 些 级 别 不 是 简单 地 表示 
层次 关系 ,而 是 表示 具有 上 述 3 个 共同 特性 的 不 同 设计 结构 。 

1. RAID 0 

RAID 0 不 遵循 以 上 特性 (3) ,没有 宛 余 , 数 据 分 布 在 多 个 物理 磁盘 上 ,适用 于 容量 和 速 
度 要 求 高 的 非 关键 数据 存储 的 场合 ,与 单个 大 容量 磁盘 相 比 ,有 以 下 两 个 优点 : 

(1) 采用 连续 分 布 或 大 数据 块 交 叉 分 布 时 ,如 果 两 个 I/O 请 求 访问 不 同 盘 上 的 数据 , 则 
两 个 盘 可 并 行 传送 ,使 /O 请 求 同 时 响应 ,因而 减少 了 1/O 排队 时 间 , 具 有 较 快 的 IO 响应 
能 力 。 因 而 它 适 合 要 求 IO 响应 速度 快 的 场合 ,如 订 票 系统 等 。 

(2) 采用 小 条 带 交 叉 分 布 时 ,一 个 W/O 请 求 很 可 能 占 多 个 条 带 , 并 分 布 在 不 同 的 盘 上 ， 
因而 可 并 行 传送 同一 个 1/O 请 求 的 不 同 条 带 上 的 数据 块 ,所 以 数据 传输 率 较 高 。 因 而 , 适 
用 于 大 容量 1/O 请 求 的 场合 ,如 流 媒体 播放 系统 、 图 像 处 理 .CAD 系统 等 。 

2. RAID 1 

RAID 1 采用 镜像 盘 实 现 一 对 一 宛 余 。 有 以 下 3 个 特点 : 

(1) 一 个 读 请 求 可 由 其 中 一 个 定位 时 间 更 少 的 磁盘 提供 数据 。 

(2) 一 个 写 请 求 对 两 个 磁盘 中 对 应 的 信息 并 行 更 新 , 故 写 性 能 由 两 次 中 较 慢 的 一 次 写 
来 决定 。 
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(3) 数据 恢复 简单 。 当 一 个 磁盘 损坏 时 ,数据 仍 能 从 另 一 个 磁盘 中 读 取 。 

RAID 1 的 可 靠 性 高 ,但 价格 昂贵 。 常 用 于 可 靠 性 要 求 很 高 的 场合 。 

3. RAID 2 

RAID 2 用 海 明 校 验 生成 多 个 匈 余 校 验 盘 ,实现 纠正 一 位 错误 检测 两 位 错误 的 功能 。 
采用 小 条 带 交叉 分 布 方式 (有 时 一 个 条 带 为 一 个 字 或 一 个 字 节 ) ,这 样 ,可 获得 较 高 数据 传输 
率 , 但 I/O 响应 时 间 较 长 。 因 为 采用 海 明 码 ,所 以 校 验 盘 与 数据 盘 成 正比 ,因而 元 余 信息 开 
销 太 大 ,价格 较 贵 ,所 以 RAID 2 已 不 再 被 使 用 。 

4. RAID 3 

RAID 3 采用 奇偶 校 验 生成 单个 元 余 盘 ,与 RAID 2 相同 ,也 采用 小 条 带 交 又 分 布 方式 ， 
数据 传输 率 高 ,但 I/O 响应 时 间 较 长 。 

RAID 中 损坏 的 数据 可 以 通过 其 他 磁盘 重新 生成 。RAID 3 的 数据 恢复 操作 如 下 。 假 
定 考 虑 一 个 有 5 个 磁盘 的 阵列 ,其 中 Xe 一 X: 为 数据 盘 ,P 是 奇偶 校 验 盘 , 奇 偶 校 验 的 第 i 位 
计算 公式 如 下 : 





P(i) = Xs(i) @ Xi) D Xi) DB Xo i) 
若 磁盘 Xo 损坏 , 则 在 上 述 等 式 两 边 同 时 异 或 P(i)Xo (i) ,得 到 以 下 等 式 : 
Xi) = P(i) @ Xi) D Xi) DB X10) 
因此 , 某 数据 磁盘 中 的 任 一 数据 条 带 的 内 容 都 能 从 剩余 磁盘 的 相应 条 带 中 重新 生成 。 
5. RAID 4 
与 RAID 3 一 样 ,RAID 4 也 采用 一 个 宛 余 盘 存放 奇偶 校 验 位 ,不 过 RAID 4 采用 的 是 
大 数据 块 交 又 方 式 ,每 个 磁盘 的 操作 独立 进行 ,所 以 多 个 小 数据 量 的 操作 可 以 在 多 个 磁盘 上 
并 行进 行 ,以 同时 响应 多 个 W/O 请 求 ,具有 和 较 快 的 1/O 响应 时 间 ,可 用 于 银行 .证 券 等 事务 
处 理 系统 。 
RAID 4 的 数据 恢复 方式 与 RAID 3 相同 ,比较 容易 。 但 对 于 写 操作 ,因为 每 次 写 都 要 
对 校 验 盘 进 行 相应 的 校 验 数据 更 新 ,因而 校 验 盘 成 为 IO 瓶颈 。 在 “大 量 写 ”( 涉 及 所 有 磁 
盘 写 ) 时 ,因为 奇偶 校 验 位 可 全 部 用 新 数据 计算 得 到 ,所 以 ,无 须 读 出 原 数据 ,计算 出 校 验 位 
后 ,直接 写 人 奇偶 校 验 盘 和 数据 盘 即 可 ;而 在 “少量 写 ”( 只 涉及 个 别 磁盘 写 ) 时 ,因为 一 次 写 
操作 包含 两 次 读 和 两 次 写 ,所 以 有 “ 写 损 失 ”。 因 为 RAID 4 采用 的 是 大 数据 块 交叉 方式 ,所 
以 ,通常 发 生 的 是 “少量 写 ”"。 例 如 ,假定 考虑 一 个 有 5 个 磁盘 的 阵列 ,其 中 X。~X; 为 数据 
盘 ,P 是 奇偶 校 验 盘 , 初 始 时 每 位 i 有 下 列 关系 式 : 
P(i) = Xs(i) BD Xi) BX) BX) 
假定 仅 将 XC 让 更 新 为 XIG) ,而 Xs(i) 、Xs(i)、Xi( 让 不 变 , 则 新 的 校 验 位 P' (i) 为 


























P’(i) =X,(i) Xi) BD Xi) DB XO) 
=X,(i) DB XD) BX) BX DX) BX) 
=P(i) 四 和 Xi) 四 和 GD) 
由 此 可 见 , 要 更 新 一 个 Xu (Gi) ,必须 先 读 P(i) 和 X。 (i) ,然后 写 Xs (让 和 P' (i)。 
6. RAID 5 


RAID 5 与 RAID 4 的 组 织 方式 类 似 ,只 是 奇偶 校 验 块 分 布 在 各 个 磁盘 中 ,所 以 ,所 有 磁 
盘 地 位 等 价 ,这 样 可 提高 容错 性 ,并 且 避 免 了 使 用 专门 校 验 盘 时 潜在 的 IO 瓶颈 。 与 RAID 4 
一 样 ,RAID 5 采用 独立 存 取 技 术 和 大 数据 块 交叉 分 布 方式 ,IO 请 求 的 响应 速度 快 。 由 此 
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可 见 ,RAID 5 成 本 不 高 但 效率 高 ,因而 被 广泛 使 用 。 

7. RAID 6 

如 图 8.10 所 示 ,RAID 6 与 RAID 4 和 RAID 5 一 样 ,采用 独立 存 取 技术 和 大 数据 块 交 
叉 分 布 方式 。 所 不 同 的 是 RAID 6 的 元 余 信息 分 布 在 所 有 磁盘 上 , 且 采 用 双 维 块 奇偶 校 验 
(P, 代表 第 0 条 块 的 校 验 值 ,而 Ps 代表 数据 块 A 的 校 验 值 ), 因 而 容许 双 盘 出 错 。RAID 6 
可 用 于 要 求 数据 绝对 不 能 出 错 的 场合 。 
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图 8.10 ”RAID 6 的 双 维 校 验 块 分 布 


由 于 RAID 6 引入 了 两 个 奇偶 校 验 值 , 因 而 控制 器 的 设计 变 得 十 分 复杂 , 写 人 速度 也 比 
较 慢 ,用 于 计算 奇偶 校 验 值 和 验证 数据 正确 性 所 花费 的 时 间 比 较 多 。 由 此 可 见 ,RAID 6 以 
增 大 时 间 开 销 为 代价 保证 了 高 度 可 靠 性 。 

8. RAID7 

RAID 7 是 带 cache 的 磁盘 阵列 , 它 在 RAID 6 的 基础 上 ,采用 cache 技术 使 传输 率 和 响 
应 速度 都 有 较 大 提高 ,cache 分 块 大 小 和 磁盘 阵列 中 数据 分 块 大 小 相同 ,一 一 对 应 。 有 两 个 
独立 的 cache, 双 工 运行 。 在 写 人 时 将 数据 同时 分 别 写 和 两 个 独立 的 cache, 这样, 即使 其 中 
有 一 个 cache 出 故障 ,数据 也 不 会 丢失 。 写 入 磁盘 阵列 以 前 , 先 写 入 cache 中 ,然后 ,同一 磁 
道 的 信息 在 一 次 操作 中 完成 ; 读 出 时 , 先 从 cache 中 读 出 ,cache 中 没有 要 读 的 信息 时 , 才 从 
RAID 中 读 。RAID 7 将 cache 和 RAID 技术 结合 ,弥补 了 RAID 的 不 足 , 从 而 将 高 效 、 快 
速 、 大 容量 、 高 可 靠 以 及 灵活 方便 的 存储 系统 提供 给 用 户 。 


8.3.4 U 盘 和 固态 硬盘 


随 着 计算 机 技术 与 应 用 的 发 展 , 近 年 来 开始 普遍 使 用 U 盘 进 行 信息 存储 和 交换 。 

U 盘 也 称 为 内 存盘 ,与 上 述 硬 磁盘 不 同 , 它 不 是 磁 表 面 存储 器 ,而 是 采用 Flash 存储 器 
( 即 闪存 ) 做 成 ,属于 非 易 失 性 半导体 存储 器 。 闪 存 沿用 了 EPROM 的 简单 结构 和 浮 栅 / 热 
电子 注入 的 编程 写 人 方式 ,又 兼备 EPROM 的 可 擦 除 特 点 ,可 在 计算 机 内 进行 擦 除 和 编程 
写 人 。 因 此 又 称 为 快 擦 型 电 可 控 除 重 编程 ROM。U 盘 体 积 小 .重量 轻 , 容 量 比 软盘 和 光盘 
大 得 多 ,而 且 可 以 具有 保护 功能 ,使 用 寿命 可 长 达 数 年 之 久 。 而 且 , 利 用 USB 接口 ,可 以 与 
几乎 所 有 计算 机 连接 。 

比 UU 盘 容 量 更 大 的 用 作 计 算 机 系统 数据 备份 的 移动 设备 是 移动 硬盘 。 它 是 由 微型 硬 
盘 配 上 特制 的 硬盘 盒 构成 的 一 个 大 容量 存储 器 。 通 过 USB 和 IEEE 1394 接口 和 计算 机 连 
接 ,可 以 随时 播 拔 。 其 优点 是 容量 大 、 兼 容 性 好 .速度 快 . 体 积 小 .重量 轻 、 携 带 方便 、 安 全 
可 靠 。 

近年 来 一 种 称 为 固态 硬盘 (Solid State Disk,SSD) 的 新 产品 开始 在 市 场 上 出 现 , 也 被 称 
为 电子 硬盘 。 这 种 硬盘 并 不 是 一 种 磁 表面 存储 器 ,而 是 一 种 使 用 NAND 闪存 组 成 的 外 部 存 
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储 系 统 , 和 U 盘 并 没有 本 质 差 别 , 只 是 容量 更 大 , 存 取 性 能 更 好 。 它 用 闪存 颗粒 代替 了 磁盘 
作为 存储 介质 ,利用 闪存 的 特点 ,以 区 块 写 人 和 抹 除 的 方式 进行 数据 的 读 取 和 写 人 。 电 信和 号 
的 控制 使 得 固态 硬盘 的 内 部 传输 速率 远 远 高 于 常规 硬盘 。 有 测试 显示 ,使 用 固态 硬盘 以 后 ， 
Windows 的 开机 速度 可 以 被 提升 至 20s 以 内 ,这 是 基于 常规 硬盘 的 计算 机 系统 难以 达到 的 
速度 性 能 。 

与 常规 硬盘 相 比 , 除 速度 性 能 外 ,固态 硬盘 还 具有 抗 振 性 好 、 安 全 性 高 .无 噪音 、 能 耗 低 、 
发 热量 低 和 适应 性 高 的 特点 。 由 于 不 需要 电机 、 盘 片 、 磁 头等 机 械 部 分 ,固态 硬盘 工作 过 程 
中 没有 任何 机 械 运动 和 振动 ,因而 抗 振 性 好 ,使 数据 安全 性 成 倍 提高 ,并 且 没 有 常规 硬盘 的 
噪音 ;由 于 不 需要 马达 工作 ,固态 硬盘 的 能 耗 也 得 到 了 成 倍 的 降低 ,只 有 传统 硬盘 的 1/3 甚 
至 更 低 , 延 长 了 靠 电池 供电 的 设备 的 连续 运转 时 间 ; 且 由 于 没有 电机 等 机 械 部 件 , 其 发 热量 
大 幅 降低 ,延长 了 其 他 配件 的 使 用 寿命 。 此 外 ,固态 硬盘 的 工作 温度 范围 很 宽 ( 一 40 一 
85C) ,因此 ,其 适应 性 上 也 远 高 于 常规 硬盘 。 

固态 硬盘 在 刚 出 现时 与 最 高 速 的 常规 硬盘 相 比 在 读 写 性 能 方面 各 有 上 下 ,而且 价格 也 
较 高 。 但 随 着 相应 技术 的 不 断 发 展 ,目前 固态 硬盘 的 读 写 性 能 基本 上 超越 了 常规 硬盘 , 且 价 
格 也 不 断 下 降 。 由 于 固态 硬盘 具有 以 上 优点 ,加 上 其 今后 的 发 展 潜力 比 传统 硬盘 要 大 得 多 ， 
因而 固态 硬盘 有 望 逐步 取代 传统 硬盘 。 

固态 硬盘 的 接口 规范 和 定义 、 功 能 及 使 用 方法 与 传统 硬盘 完全 相同 ,在 产品 外 形 和 尺寸 
上 也 与 普通 硬盘 一 致 。 目 前 主要 有 2. 5 英寸 与 1. 8 英寸 两 种 尺寸 ;接口 标准 上 使 用 SATA 
和 IDE 接口 ;目前 市 场 上 产品 容量 在 32~~256GB 之 间 ,但 已 发 表 的 最 大 容量 已 达 1TB。 在 
访问 性 能 方面 ,目前 固态 硬盘 的 平均 访问 时 间 大 约 是 常规 硬盘 的 1. 5 倍 , 写 人 速度 可 达 常 规 
硬盘 的 1.5 倍 , 读 取 速 度 可 达 常 规 硬 盘 的 2 一 3 倍 ;而 CPU 占用 率 可 下 降 为 常规 硬盘 的 
1/5~1/10, 

固态 硬盘 目前 主要 的 问题 是 使 用 寿命 和 价格 。 由 于 闪存 的 擦 写 次 数 有 限 , 所 以 频繁 控 
写 会 降低 其 写 入 使 用 寿命 ;而 价格 上 目前 固态 硬盘 的 价格 远 远 高 于 常规 硬盘 。 但 随 着 技术 
和 生产 工艺 的 不 断 进步 ,固态 硬盘 的 写 人 使 用 寿命 会 不 断 提高 , 且 价 格 也 将 不 断 下 降 。 


8.4 外 设 与 CPU., 主 存 的 互 连 


计算 机 由 CPU、 主 存储 器 和 各 种 1/O 外 部 设备 组 成 。 计 算 机 的 所 有 功能 都 是 通过 
CPU 执行 指令 实现 的 。 在 指令 执行 过 程 中 ,CPU 主 存 和 外 设 之 间 要 不 断 地 交换 信息 (包括 
数据 、 指 令 和 中 断 向 量 等 ), 因 此 ,可 以 说 计算 机 所 有 功能 的 实现 ,归根 结 底 是 各 种 信息 在 计 
算 机 内 部 的 各 部 件 之 间 进 行 交 换 的 过 程 。 要 进行 信息 交换 ,必须 在 部 件 之 间 构 建 通信 线路 ， 
通常 把 连接 各 部 件 的 通路 的 集合 称 为 互 连 结构 。 


8.4.1 总 线 概述 


部 件 之 间 的 互 连 方式 有 两 种 ,一 种 是 各 部 件 之 间 通 过 单独 的 连 线 互 连 , 这 种 方式 称 为 分 
散 连 接 ; 另 一 种 是 将 多 个 部 件 连接 到 一 组 公共 信息 传输 线 上 ,这 种 方式 称 为 总 线 连 接 。 总 线 
连接 结构 的 两 个 主要 优点 是 灵活 和 成 本 低 。 它 的 灵活 性 体现 在 新 部 件 可 以 很 容易 地 加 到 总 
线 上 ,并且 部 件 可 以 在 使 用 相同 总 线 的 计算 机 系统 之 间 互 换 。 因 为 一 组 单独 的 连 线 可 被 多 
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个 部 件 共享 ,所 以 总 线 的 性 价 比 高 。 总 线 的 主要 缺点 是 它 可 能 产生 通信 瓶 开 。 多 年 以 来 , 计 
算 机 系统 中 多 用 总 线 方式 进行 互 连 。 

总 线 是 计算 机 内 数据 传输 的 公共 路 径 ,用 于 实现 两 个 或 两 个 以 上 部 件 之 间 的 信息 交换 。 
计算 机 系统 中 有 多 种 总 线 , 它 们 在 各 个 层次 上 提供 部 件 之 间 的 连接 和 信息 交换 通路 。 内 部 
总 线 指 芯片 内 部 连接 各 元 件 的 总 线 ,例如 CPU 芯片 内 部 在 各 个 寄存 器 .ALU、 指 令 部 件 等 
各 元 件 之 间 互 连 的 总 线 。 系 统 总 线 指 连接 CPU ,存储 器 和 各 种 I/O 模块 等 主要 部 件 的 总 
线 , 通 常 所 说 的 总 线 是 指 这 类 总 线 。 

总 线 通常 由 一 组 控制 线 、 一 组 数据 线 和 一 组 地 址 线 构成 。 也 有 些 总 线 没 有 单独 的 地 址 
线 , 地 址 信息 通过 数据 线 来 传送 ,这 种 情况 称 为 数据 线 和 地 址 线 复 用 。 

数据 线 用 来 承载 在 源 部 件 和 目的 部 件 之 间 传 输 的 信息 ,这 个 信息 可 能 是 数据 、 命 令 或 地 
址 (如 果 数 据 线 和 地 址 线 复 用 的 话 ) 。 

地 址 线 用 来 给 出 源 数据 或 目的 数据 所 在 的 主 存单 元 或 7O 端口 的 地 址 。 例 如 , 若 要 从 
主 存单 元 读 一 个 数据 ,那么 CPU 必须 将 该 主 存单 元 的 地 址 送 到 地 址 线 上 ,地 址 线 是 单 向 
的 。 若 要 输出 一 个 数据 到 外 设 ,那么 CPU 也 必须 把 该 外 设 的 地 址 (实际 上 是 W/O 端口 的 地 
址 ) 送 到 地 址 线 上 。 

控制 线 用 来 控制 对 数据 线 和 地 址 线 的 访问 和 使 用 。 因 为 数据 线 和 地 址 线 是 被 连接 在 其 
上 的 所 有 设备 共享 的 ,如 何 使 各 个 部 件 在 需要 时 使 用 总 线 , 需 靠 控制 线 来 协调 。 控 制 线 用 来 
传输 定时 信号 和 命令 信息 。 除 地 址 线 和 数据 线 以 外 的 通信 线 都 称 为 控制 线 , 如 时 钟 线 、 复 位 
线 、 操 作 命令 线 .总线 请 求 和 总 线 回 答 线 等 ,可 能 还 包含 电源 线 和 地 线 。 

传统 的 总 线 大 多 是 同步 总 线 , 它 采用 公共 的 时 钟 信号 进行 定时 。 挂 接 在 总 线 上 的 所 有 
设备 都 从 时 钟 线 上 获得 定时 信号 。 同 步 总 线 的 传输 协议 非常 简单 ,只 要 在 规定 的 第 几 个 时 
钟 周期 内 完成 特定 的 操作 即 可 。 例 如 ,对 于 处 理 器 通过 总 线 访问 存储 器 的 操作 来 说 ,可 以 规 
定 以 下 “存储 器 读 操作 ?协议 : 主 控 设备 ( 即 处 理 器 ) 在 第 一 个 时 钟 周期 发 送 地 址 和 存储 器 读 
命令 (可 利用 控制 线 表 明 请 求 的 类 型 为 “存储 器 读 ”) ,从 设备 ( 即 存储 器 ) 总 是 在 第 5 个 时 钟 
周期 将 数据 放 到 总 线 上 作为 响应 ,处 理 器 也 在 第 5 个 时 钟 周期 从 数据 线 上 取 数 据 。 同 步 通 
信和 方式 有 两 个 缺点 : 第 一 ,总 线 定时 以 最 慢 设 备 所 花 时 间 为 标准 ,所 以 同步 总 线 适合 于 存 取 
时 间 相 差 不 大 的 多 个 功能 部 件 之 间 的 通信 ;第 二 ,由 于 时 钟 偏 移 问 题 ,导致 同步 总 线 不 能 过 
长 ,否则 将 会 降低 总 线 传输 效率 。 因 为 同步 总 线 通常 采用 并 行 传输 方式 , 即 总 线 的 数据 线条 
数 为 8 位 、16 位 、32 位 或 64 位 等 ,同时 并 行 传输 的 这 些 数 据 位 信号 的 定时 必须 相同 ,因此 ， 
实现 更 快 传送 速度 、 更 长 传输 线 的 总 线 时 ,会 导致 传送 到 另 一 端 时 的 波形 发 生变 形 , 从 而 导 
致 所 有 位 中 最 快 和 最 慢 的 位 信号 之 间 的 时 间 偏 差 较 大 。 

由 于 同步 总 线 的 上 述 问题 ,现在 越 来 越 多 的 总 线 采 用 异步 串 行 方式 进行 传输 。 因 为 串 
行 传输 方式 每 次 在 一 根 信号 线 上 传送 数据 位 ,传输 速率 可 以 比 并 行 总 线 高 得 多 ,而 且 , 因 为 
每 个 位 各 自传 输 , 因 而 传输 时 延 的 细微 变化 不 会 影响 其 他 数据 位 的 传送 。 通 过 多 个 数据 通 
道 的 组 合 , 可 以 实现 比 传 统 并 行 总 线 高 得 多 的 数据 传输 带宽 。 

总 线 的 性 能 指标 通常 包含 以 下 几 个 方面 。 

1. 总 线 宽 度 

总 线 中 数据 线 的 条 数 称 为 总 线 宽度 , 它 决定 了 每 次 能 同时 传输 的 信息 的 位 数 。 并 行 传 
输 总 线 的 总 线 宽度 为 16 位 、32 位 、64 位 或 128 位 等 。 
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2. 总 线 工 作 频 率 

早期 的 总 线 通 常 一 个 时 钟 周期 传送 一 次 数据 ,因此 总 线 工 作 频 率 等 于 总 线 时 钟 频率 。 
现在 有 些 总 线 一 个 时 钟 周 期 可 以 传送 2 次 或 4 次 数据 ,因此 ,总 线 工 作 频率 是 总 线 时 钟 频率 
的 2 倍 或 4 倍 。 

3. 总 线 带 宽 

总 线 带 宽 指 总 线 的 最 大 数据 传输 率 , 即 总 线 在 进行 数据 传输 时 单位 时 间 内 最 多 可 传输 
的 数据 量 ,不 考虑 其 他 如 总 线 裁 决 . 地 址 传送 等 所 花 的 时 间 。 

对 于 同步 总 线 ,其 总 线 带 宽 的 计算 公式 为 

B=WXF/N 
其 中 ,W 为 总 线 宽度 , 即 总 线 能 同时 并 行 传送 的 数据 位 数 ,通常 以 字 节 为 单位 ;为 总 线 的 
时 钟 频率 ;NN 为 完成 一 次 数据 传送 所 用 的 时 钟 周期 数 。 

例 8.1 假定 某 同 步 总 线 在 一 个 时 钟 周 期 内 传送 一 个 4 字 节 的 数据 ,总 线 时 钟 频 率 为 
33MHz, 求 总 线 带宽 是 多 少 ? 如 果 总 线 宽 度 改 为 64 位 ,一 个 时 钟 周期 能 传送 两 次 数据 ,总 
线 时 钟 频率 为 66MHz, 则 总 线 带 宽 为 多 少 ? 提高 了 多 少 倍 ? 

解 : 由 上 述 同 步 总 线 带宽 计算 公式 ,可 得 总 线 带 宽 为 4BX33MHz/1 二 132MB/s。 

总 线性 能 改进 后 的 总 线 带 宽 为 8BX66MHz/0.5==1056MB/s, 提 高 了 8 倍 。 

4. 总 线 寻 址 能 力 

总 线 的 寻 址 能 力主 要 指 由 地 址 线 位 数 所 确定 的 可 寻 址 地 址 空间 的 大 小 。 例 如 , 若 地 址 
线 有 16 位 ,不 采用 分 时 多 次 传送 地 址 , 则 可 访问 的 存储 单元 最 多 只 能 有 22 个 。 

5. 总 线 定时 方式 

按照 总 线 上 信息 传送 的 定时 方式 来 分 ,有 同步 通信 、 异 步 通信 和 半 同 步 通信 3 类 。 同 步 
通信 总 线 由 时 钟 信号 同步 ;异步 通信 总 线 指 前 一 个 信号 的 结束 就 是 下 一 个 信和 号 的 开始 ,信息 
的 改变 是 顺序 的 ; 半 同 步 通 信 总 线 则 是 同步 和 异步 两 类 总 线 定时 方式 的 结合 。 

6. 总 线 传送 方式 

总 线 上 数据 传送 分 非 突 发 方式 和 突 发 方式 两 种 。 非 突 发 传送 方式 在 每 个 传送 周期 内 都 
是 先 传送 地 址 ,再 传送 数据 。 在 突 发 传送 方式 下 ,总 线 能 够 进行 连续 的 成 块 数据 传送 ,传送 
开始 时 , 先 给 出 数据 块 在 存储 器 中 的 首 地 址 ,然后 连续 地 传送 数据 块 ,后 续 数 据 的 地 址 默认 
为 前 面 数据 的 地 址 加 1。 突 发 传送 无 须 在 地 址 线 上 传送 后 续 数 据 的 地 址 信息 ,因而 在 总 线 
宽度 和 总 线 时 钟 频率 相同 的 情况 下 , 比 非 突 发 传送 方式 的 数据 传输 率 高 。 

7. 总 线 负载 能 力 

总 线 的 负载 能 力 指 总 线 上 所 能 挂 接 的 遵循 总 线 电气 规范 的 总 线 设备 的 数目 。 由 于 总 线 
上 只 有 扩展 槽 能 由 用 户 使 用 ,所 以 总 线 的 负载 一 般 指 总 线 上 扩展 槽 的 个 数 。 


8.4.2 基于 总 线 的 互 连 结 构 


图 8. 11 给 出 了 一 个 传统 的 基于 总 线 互 连 的 计算 机 系统 结构 示意 图 ,在 其 互 连 结构 中 ， 
除了 CPU\ 主 存储 器 以 及 各 种 接 插 在 主板 扩展 槽 上 的 I/O 控制 卡 ( 如 声卡 、 视 频 卡 ) 外 ,还 有 
北桥 芯片 和 南 桥 芯 片 。 这 两 块 超大 规模 集成 电路 芯片 组 成 一 个 “芯片 组 ,是 计算 机 中 各 个 
组 成 部 分 相互 连接 和 通信 的 枢纽 。 主 板 上 所 有 的 存储 器 控制 功能 和 I/O 控制 功能 几乎 都 
集成 在 该 芯片 组 内 , 它 既 实现 了 总 线 的 功能 ,又 提供 了 各 种 W/O 接口 及 相关 的 控制 功能 。 


互 过 及 葵 入 葵 册 组织 


其 中 ,北桥 是 一 个 主 存 控制 器 集线器 (Memory Controller Hub,MCH) 芯 片 ,本 质 上 是 一 个 
DMA(Direct Memory Access) 控 制 器 ,因此 ,可 通过 MCH 芯片 直接 访问 主 存 和 显卡 中 的 显 
存 。 南 桥 是 一 个 IVO 控制 器 集线器 (I/O Controller Hub,ICH) 芯 片 , 其 中 可 以 集成 USB 控 
制 器 、 磁 盘 控 制 器 .以 太 网 控制 器 等 各 种 外 设 控制 器 ,也 可 以 通过 南 桥 芯 片 引出 若干 主板 扩 
展 模 ,用 以 接 插 一 些 IO 控制 卡 。 
寄存 器 组 
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图 8.11 外 设 \ 设 备 控制 器 和 CPU 及 主 存 的 连接 


如 图 8. 11 所 示 ,CPU 与 主 存 之 间 由 处 理 器 总 线 ( 也 称 为 前 端 总 线 ) 和 存储 器 总 线 相连 ， 
各 类 I/O 设备 通过 相应 的 设备 控制 器 (例如 USB 控制 器 .显示 适 配 卡 、 磁 盘 控制 器 ) 连 接 到 
1/O 总 线 上 ,而 MO 总 线 通过 芯片 组 与 主 存 和 CPU 连接 。 

传统 上 ,总 线 分 为 处 理 器 -存储 器 总 线 和 I/O 总 线 。 处 理 器 -存储 器 总 线 比较 短 ,通常 是 
高 速 总 线 , 有 的 系统 将 处 理 器 总 线 和 存储 器 总 线 分 开 , 中 间 通 过 北桥 芯片 (桥接 器 ) 连 接 ， 
CPU 芯片 通过 CPU 插座 插 在 处 理 器 总 线 上 ,内 存 条 通过 内 存 条 插 模 插 在 存储 器 总 线 上 。 

下 面 对 处 理 器 总 线 、 存 储 器 总 线 和 1/O 总 线 进行 简单 说 明 。 

1. 处 理 器 总 线 

早期 的 Intel 微 处 理 器 的 处 理 器 总 线 称 为 前 端 总 线 (Front Side Bus,FSB) , 它 是 主板 上 
最 快 的 总 线 , 主 要 用 作 处 理 器 与 北桥 芯片 进行 信息 交换 。 

FSB 的 传输 速率 单位 实际 上 是 MT/s, 通 常 所 说 的 总 线 传输 速率 单位 MHz 是 习惯 上 的 
称呼 ,实质 是 时 钟 频率 单位 。 早 期 的 FSB 每 个 时 钟 传送 一 次 数据 ,因此 时 钟 频率 与 数据 传 
输 速率 一 致 。 但 是 ,从 Pentium Pro 开始 ,FSB 采用 quad pumped 技术 ,在 每 个 总 线 时钟 周 
期 内 传 4 次 数据 ,也 就 是 说 ,总 线 的 数据 传输 速率 等 于 总 线 时 钟 频率 的 4 倍 , 若 时 钟 频 率 为 
333MHz, 则 数据 传输 速率 为 1333MT/s, 即 1.333GT/s, 但 习惯 上 称 1333MHz。 例 如 ,Intel 
Xeon 5400 处 理 器 的 前 端 总 线 运行 速度 可 以 是 266MHz(1066MT/s) 、333MHz(1333MT/s) 
或 者 400MHz (1600MTVs) 。 若 前 端 总 线 的 工作 频率 为 1333MHz (实际 时 钟 频率 为 
333MHz) ,总 线 宽度 为 64 位 , 则 总 线 带 宽 为 10. 5GB/s。 对 于 多 CPU 芯片 的 多 处 理 器 系 
统 , 则 多 个 CPU 芯片 通过 一 个 FSB 进行 互 连 , 即 多 个 处 理 器 共享 一 个 FSB。 

Intel 公司 推出 Core i7 时 ,北桥 芯片 的 功能 被 集成 到 了 CPU 芯片 内 ,CPU 通过 存储 器 
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总 线 ( 即 内 存 条 插 槽 ) 直 接 和 内 存 条 相连 ,而 在 CPU 芯片 内 部 的 核 与 核 之 间 、CPU 芯片 与 其 
他 CPU 芯片 之 间 , 以 及 CPU 芯片 与 IOH (Input/Output Hub) 芯片 之 间 , 则 通过 QPI 
(Quick Path Interconnect) 总 线 相连 。 

QPI 总 线 是 一 种 基于 包 传 输 的 串 行 高 速 点 对 点 连接 协议 ,采用 差分 信号 与 专门 的 时 钟 
信号 进行 传输 。QPI 总 线 有 20 条 数据 线 ,发送 方 (TX) 和 接收 方 (RX) 有 各 自 的 时 钟 信 和 号， 
每 个 时 钟 周期 传输 两 次 。 一 个 QPI 数据 包 包 含 80 位 ,需要 两 个 时 钟 周期 或 4 次 传输 才能 
完成 整个 数据 包 的 传送 。 在 每 次 传输 的 20 位 数据 中 ,有 16 位 是 有 效 数 据 ,其余 4 位 用 于 循 
环 宛 余 校 验 , 以 提高 系统 的 可 靠 性 。 由 于 QPI 是 双向 的 ,在 发 送 的 同时 也 可 以 接收 另 一 端 
传输 来 的 数据 ,这 样 ,每 个 QPI 总 线 的 带宽 计算 公式 如 下 : 

每 秒 传输 次 数 X 每 次 传输 的 有 效 数据 X 2 

QPI 总 线 的 速度 单位 通常 为 GT/s, 若 QPI 的 时 钟 频率 为 2. 4GHz, 则 速度 为 4. 8GT/s, 表 
示 每 秒 钟 传输 4. 8G 次 数据 ,并 称 该 QPI 频率 为 4. 8GT/s。 因 此 ,QPI 频率 为 4.8GT/s 的 
总 带宽 为 4.8GT/VsSX2BX2=19.2GB/s。QPI 频率 为 6.4GTVs 的 总 带宽 为 6. 4GT/sX2B 
X2 一 25. 6GB/s。 

图 8.12 给 出 了 Intel Core i7 中 核 与 核 之 间 、 核 与 主 存 控制 器 之 间 以 及 各 级 cache 之 间 
的 互 连 结构 。 
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图 8.12 Intel Core i7 中 各 类 存储 器 以 及 核 之 间 的 互 连 


从 图 8.12 可 以 看 出 ,一 个 Core i7 处 理 器 中 有 4 个 CPU 核 (core) ,每 两 个 核 之 间 都 用 
QPI 总线 互 连 , 并 且 每 个 核 还 有 一 条 QPI 总 线 可 以 与 IOH 芯片 互 连 。 处 理 器 支持 三 通道 
DDR3 SDRAM 内 存 条 插 模 ,因此 ,处 理 器 中 包含 3 个 内 存 控制 器 ,并 有 3 个 并 行 传输 的 存 
储 器 总 线 , 也 意味 着 有 3 组 内 存 条 插 槽 。 


互 过 及 葵 入 葵 出 组 织 


2. 存储 器 总 线 

早期 的 存储 器 总 线 由 北桥 芯片 控制 ,处 理 器 通过 北桥 芯片 和 主 存储 器 .图形 卡 (显卡 ) 以 
及 南 桥 芯 片 进行 互 连 。Core i7 以 后 的 处 理 器 芯片 中 集成 了 内 存 控制 器 ,因而 ,存储 器 总 线 
直接 连接 到 处 理 器 ,如 图 8.12 所 示 。 

根据 芯片 组 设计 时 确定 的 芯片 组 能 够 处 理 的 主 存 类 型 的 不 同 , 存 储 器 总 线 有 不 同 的 运 
行 速度 。 如 图 8. 12 所 示 的 计算 机 中 ,每 个 存储 器 总 线 宽 度 为 64 位 ,每 秒 钟 传输 1333M 次 ， 
总 线 带 宽 为 1333MX 64/8 王 10. 66GB/s, 因 而 3 个 通道 的 总 带宽 为 32GB/s, 与 此 配套 的 内 
存 条 型 号 为 DDR3-1333。 

3. I/O 总 线 

I/O 总 线 用 于 为 系统 中 的 各 种 1/O 设备 提供 输入 输出 通路 ,在 物理 上 通常 是 主板 上 的 
一 些 IVO 扩展 槽 。 第 一 代 IO 总 线 有 XT 总 线 、ISA 总 线 、EISA 总 线 、VESA 总 线 ,这些 
1/O 总 线 早已 被 淘汰 ;第 二 代 I/O 总 线 包括 PCI、AGP、PCI-X; 第 三 代 1/O 总 线 是 PCI- 
Express。 

与 前 两 代 1/O 总 线 采用 并 行 传输 的 同步 总 线 不 同 ,PCI-Express 总 线 采 用 串 行 传输 方式 。 
两 个 PCLExpress 设备 之 间 以 一 个 链 路 (link) 相 连 , 每 个 链 路 可 包含 多 条 通路 (lane) ,可 能 的 通 
路 数 为 1.2.4.8、16 或 32,PCI-ExpressXn 表示 具有 nn 个 通路 的 PCI-Express 链 路 。 

每 条 通路 由 发 送 和 接收 数据 线 构成 ,在 发 送 和 接收 两 个 方向 上 都 各 有 两 条 差分 信号 线 ， 
可 同时 发 送 和 接收 数据 。 在 发 送 和 接收 过 程 中 ,每 个 数据 字 节 实际 上 被 转换 成 了 10 位 信息 
被 传输 ,以 保证 所 有 位 都 含有 信号 电 平 的 跳 变 。 这 是 因为 在 链 路 上 没有 专门 的 时 钟 信号 , 接 
收 器 使 用 锁 相 环 (PLL) 从 进入 的 位 流 0-1 和 1-0 跳 变 中 恢复 时 钟 。 

PCI-Express 1.0 规范 支持 通路 中 每 个 方向 的 发 送 或 接受 速率 为 2. 5Gb/s。 因 此 ,PCI- 
Express 1.0 总 线 的 总 带宽 计算 公式 (单位 为 GB/s) 如 下 : 

2. 5Gb/sX2X 通 路 数 /10 

根据 上 述 公 式 可 知 ,在 PCI-Express 1.0 规范 下 ,PCI-ExpressX1 的 总 带宽 为 0. 5GB/s， 
PCI-ExpressX2 的 总 带宽 为 1GB/s,PCI-Express X16 的 总 带宽 为 8GB/s。 

将 北桥 芯片 功能 集成 到 CPU 芯片 后 ,主板 上 的 芯片 组 不 再 是 传统 的 三 芯片 结构 (CPU 十 
北桥 十 南 桥 )。 根 据 不 同 的 组 合 现在 有 多 种 主板 芯片 组 结构 ,有 的 是 双 芯 片 结构 (CPU 十 
PCH) ,有 的 是 三 芯片 结构 (CPU 十 IOH 十 ICH)。 其 中 , 双 芯 片 结构 中 的 PCH (Platform 
Controller Hub) 芯 片 除 了 包含 有 原来 南 桥 (ICH) 的 I/O 控制 器 集线器 的 功能 外 ,以 前 北桥 
中 的 图 形 显示 控制 单元 、 管 理 引 擎 (Management Engine, ME) 单 元 也 集成 到 了 PCH 中 , 另 
外 还 包括 NVRAM(Non-Volatile Random Access Memory) 控 制 单元 等 。 也 就 是 说 ,PCH 
比 以 前 南 桥 的 功能 要 复杂 得 多 。 

图 8. 13 给 出 了 基于 Core i7 系列 三 芯片 结构 的 单 处 理 器 系统 互 连 示意 图 。 图 中 Core 这 
芯片 直接 与 三 通道 DDR3 SDRAM 主 存储 器 连接 ,并 提供 一 个 带宽 为 25. 6GB/s 的 QPI 总 
线 ,与 基于 X58 芯片 组 的 IOH 芯片 相连 。 图 中 每 个 通道 的 存储 器 总 线 带宽 为 64b/8X 
533MHzX2 一 8. 5GB/s, 因 此 所 配 内 存 条 速度 为 533MHzX2 一 1066MT/s。 

图 8.13 中 ,IOH 的 重要 功能 是 提供 对 PCI-Express 2. 0 的 支持 ,最 多 可 支持 36 条 PCI- 
Express 2.0 通路 ,可 以 配置 为 一 个 或 两 个 PCI-Express 2.0X16 的 链 路 ,或 者 4 个 PCI- 
Express 2.0X8 的 链 路 ,或 者 其 他 的 组 合 , 如 8 个 PCI-Express 2.0X4 的 链 路 等 。 这 些 
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PCI-Express 链 路 可 以 支持 多 个 图 形 显 示 卡 。 
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图 8.13 基于 Intel Core i7 系列 处 理 器 的 计算 机 互 连 结构 





























IOH 与 ICH 芯片 (ICH10 或 ICH10R) 通 过 DMI(Direct Media Interface) 总 线 连 接 。 
DMI 采用 点 对 点 的 连接 方式 ,时 钟 频率 为 100MHz, 因 为 上 行 与 下 行 各 有 1GB/s 的 数据 传 
输 率 ,因此 总 带宽 达到 2GB/s。ICH 芯片 中 集成 了 相对 慢 速 的 外 设 LO 接口 ,包括 : 6 个 
PCI-ExpressX1 接口 .10/100/1000Mbps 网 卡 接口 、 集 成 声卡 (HD Audio)、6 个 SATA 硬 
盘 控 制 接 口 和 12 个 支持 USB 2. 0 标准 的 USB 接口 。 若 采用 ICH10R 芯片 , 则 还 支持 
RAID 功能 , 即 ICH10R 芯片 中 还 包含 RAID 控制 器 ,所 支持 的 RAID 等 级 有 SATA RAID 0、 
RAID 1、RAID 5、RAID 10 等 。 

外 设 的 W/O 接口 又 称 设备 控制 器 、I/O 控制 器 或 1/O 控制 接口 ,也 称 为 1/O 模块 ,是 介 
于 外 设 和 I/O 总 线 之 间 的 部 分 ,不 同 的 外 设 往往 对 应 不 同 的 设备 控制 器 。 设 备 控制 器 通常 
独立 于 1/O 设备 ,可 以 集成 在 主板 上 ( 即 ICH 芯片 内 ) 或 以 插 卡 的 形式 插 在 IO 总 线 扩展 槽 
上 。 例如 ,图 8.11 和 图 8. 13 中 的 磁盘 控制 器 .以 太 网 卡 (网 络 控制 器 )`USB 控制 器 .声卡 、 
视频 卡 等 都 是 一 种 外 设 I/O 接口 。 

外 设 的 I/O 接口 根据 从 CPU 接收 到 的 控制 命令 来 对 相应 外 设 进行 控制 。 它 在 主机 一 
侧 与 1/O 总 线 相连 ,在 外 设 一 侧 提供 相应 的 连接 器 插座 ,在 插座 上 连 上 相应 的 连接 外 设 的 
电缆 ,就 可 以 将 外 设 通 过 相应 的 1/O 接口 连接 到 主机 。 

图 8.14 给 出 了 常用 的 几 种 连接 外 设 的 插座 。 例 如 ,键盘 和 鼠标 可 以 连接 在 PS/2 插座 
(图 8. 14 中 的 键盘 接口 和 鼠标 器 接口 处 的 插座 ) 上 ,也 可 以 连 在 USB 接口 上 。 目 前 很 多 外 
设 都 连接 在 USB 接口 上 。 
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图 8.14 常用 1/O 设 备 插座 
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8.5 I/O 接口 


外 部 设备 种 类 繁多 , 且 具 有 不 同 的 工作 特性 ,因而 它们 在 工作 方式 、 数 据 格式 和 工作 速 
度 等 方面 存在 很 大 差异 。 此 外 ,由 于 CPU 内 存 等 计算 机 主机 部 件 采 用 高 速 元 器 件 ,使 得 它 
们 和 外 设 之 间 在 技术 特性 上 有 很 大 的 差异 ,它们 各 有 自己 的 时 钟 和 独立 的 时 序 控制 ,两 者 之 
间 采 用 完全 的 异步 工作 方式 。 为 此 ,在 各 个 外 设 和 主机 之 间 必 须要 有 相应 的 逻辑 部 件 来 解 
决 它们 之 间 的 同步 与 协调 、 工 作 速 度 的 匹配 和 数据 格式 的 转换 等 问题 ,该 逻辑 部 件 就 是 外 设 
的 1/O 接口 或 称 1/O 模块 。 各 种 1/O 控制 器 或 设备 控制 器 (包括 适配器 或 适 配 卡 ) 都 是 1/O 
接口 ,而 在 有 些 大 型 机 中 的 1/O 模块 就 是 担负 大 量 复杂 的 外 设 控制 任务 的 通道 或 IO 处 
理 器 。 


8.5.1 I/O 接口 的 功能 


1/O 接口 是 连接 外 设 和 主机 的 一 个 “桥梁 ”, 因此 它 在 外 设 侧 和 主机 侧 各 有 一 个 接口 。 
通常 把 它 在 主机 侧 的 接口 称 为 内 部 接口 ,在 外 设 侧 的 接口 称 为 外 部 接口 。 内 部 接口 通过 1/O 
总 线 和 内 存 .CPU 相连 ,而 外 部 接口 则 通过 各 种 I/O 接口 电缆 (如 USB 线 、IEEE 1394 线 、 
串 行 电缆 .并行 电缆 、 网 线 或 SCSI 电缆 等 ) 将 其 连 到 外 设 上 。 因 此 ,通过 1/O 接口 ,可 以 在 
CPU . 主 存 和 外 设 之 间 建 立 一 个 高 效 的 信息 传输 “通路 ”。 这 个 通路 就 是 “CPU 和 内 存 一 I/O 
总 线 一 1/O 接口 (1/O 控制 器 ) 一 1/O 接口 电缆 一 外 设 ”。 

1/O 接口 的 职能 可 概括 为 以 下 几 个 方面 。 

(1) 数据 缓冲 : 由 于 主 存 和 CPU 寄存 器 的 存 取 速度 非常 快 ,而 外 设 速 度 则 较 低 ,所 以 
在 1/O 接口 中 引入 数据 缓冲 寄存 器 ,以 达到 主机 和 外 设 工作 速度 的 匹配 。 

(2) 错误 或 状态 检测 : 在 1/O 接口 中 提供 状态 寄存 器 ,以 保存 各 种 状态 信息 , 供 CPU 
查 用 。 例 如 ,设备 是 否 完成 打印 或 显示 ;是 否 已 准备 好 输入 数据 以 供 主机 来 读 取 ; 是 否 发 生 
缺 纸 等 某 种 出 错 情况 。 接 口 和 外 设 发 生 的 出 错 情况 有 两 类 : 一 类 是 设备 电路 故障 或 异常 情 
况 ; 另 一 类 是 数据 传输 错 ,这 种 错误 是 通过 在 每 个 字符 上 采用 一 个 校 验 码 来 检测 的 。 

(3) 控制 和 定时 : 提供 控制 和 定时 逻辑 ,以 接收 从 系统 总 线 来 的 控制 命令 (命令 字 ) 和 
定时 信号 。CPU 根据 程序 中 的 1/O 请 求 ,选择 相应 的 设备 进行 通信 ,要 求 一 些 内 部 资源 (如 
主 存 或 寄存 器 .总线 等 ) 参 与 到 I/O 过 程 中 ,这 样 I/O 接口 就 必须 提供 定时 和 控制 功能 ,以 
协调 内 部 资源 与 外 设 间 动作 的 先后 关系 ,控制 数据 通信 过 程 。 

(4) 数据 格式 转换 : 提供 数据 格式 转换 部 件 ( 如 进行 串 / 并 转换 的 移 位 寄存 器 ) ,使 通过 
外 部 接口 得 到 的 数据 转换 为 内 部 接口 需要 的 格式 ,或 在 相反 的 方向 进行 数据 格式 转换 。 例 
如 ,从 磁盘 驱动 器 以 二 进 制 位 的 形式 读 出 或 写 入 后 ,在 磁盘 控制 器 中 ,应 对 读 出 的 数据 进行 
串 / 并 转换 ,或 对 写 人 的 数据 进行 并 / 串 转换 。 


8.5.2 I/O 接口 的 通用 结构 


不 同 的 1/O 接口 在 复杂 性 和 控制 外 设 的 数量 上 相差 很 大 ,不 可 能 一 一 列举 。 图 8. 15 给 
出 了 一 个 IO 接口 的 通用 结构 。 
如 图 8. 15 所 示 ,I/O 接口 在 主机 侧 通 过 IO 总 线 与 内 存 .CPU 相连 。 通 过 其 中 的 数据 
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图 8.15 IO 接口 的 通用 结构 


线 ,在 数据 缓冲 寄存 器 与 内 存 或 CPU 的 寄存 器 之 间 进 行 数据 传送 。 同 时 接口 和 设备 的 状 
态 信 息 被 记录 在 状态 寄存 器 中 ,通过 数据 线 将 状态 信息 送 到 CPU ,以 供 查 用 。CPU 对 外 设 
的 控制 命令 也 是 通过 数据 线 传送 ,一 般 将 其 送 到 1/O 接口 的 控制 寄存 器 。 从 功能 上 来 说 ， 
状态 寄存 器 和 控制 寄存 器 在 传送 方向 上 是 相反 的 ,而 且 CPU 对 它们 的 访问 在 时 间 上 一 般 
是 错开 的 ,因此 有 的 IVO 接口 中 将 它们 合 二 为 一 。 

早期 的 1/O 总 线 都 是 采用 并 行 方式 的 共享 式 总 线 , 其 中 有 相应 的 地 址 线 , 用 于 给 出 要 
访问 的 1/O 接口 中 寄存 器 的 地 址 , 它 和 读 / 写 控制 信号 一 起 被 送 到 I1/O 接口 中 的 控制 逻辑 
部 件 中 ,其 中 地 址 信息 用 以 选择 和 主机 交换 数据 的 寄存 器 ,通过 控制 线 传 送 来 的 读 / 写 控制 
信号 也 有 可 能 参与 地 址 译 码 ,例如 ,可 以 用 读 / 写 信号 确定 是 接收 寄存 器 ( 写 信和 号) 还 是 发 送 
寄存 器 ( 读 信号 ) 。 此 外 ,控制 线 中 还 有 一 些 仲裁 信号 和 握手 信号 等 也 可 被 I/O 接口 使 用 。 
I/O 接 口中 的 1/0 控制 逻辑 还 要 能 对 控制 寄存 器 中 的 命令 字 进 行 译 码 ,并 将 译 码 得 到 的 控 
制 信号 通过 外 设 界 面 控制 逻辑 送 外 设 ,同时 将 数据 缓冲 寄存 器 的 数据 发 送 到 外 设 或 从 外 设 
接收 数据 到 数据 缓冲 寄存 器 。 另 外 ,还 要 具有 收集 外 设 状态 到 状态 寄存 器 的 功能 。 

如 果 某 个 1/O 接口 能 够 作为 数据 通信 的 主 控 设 备 ( 例 如 DMA 控制 器 ) ,那么 它 就 可 以 
发 起 总 线 事务 并 控制 总 线 进行 数据 传送 ,控制 线 上 的 控制 信号 由 它 确定 , 它 的 地 址 线 方向 是 
输出 。 有 了 设备 控制 器 这 一 类 的 IO 接口 ,底层 1/O 软件 就 可 以 通过 1/O 接口 来 控制 外 
设 , 因 而 编写 底层 I/O 软件 的 程序 员 只 需要 了 解 I/O 接口 的 工作 原理 ,包括 : 其 中 有 哪些 用 
户 可 访问 的 寄存 器 ,控制 /状态 寄存 器 中 每 一 位 的 含义 ,I/O 接口 与 外 设 之 间 的 通信 协议 等 ， 
而 关于 外 设 的 机 械 特性 ,程序 员 则 无 须 了 解 。 

在 底层 W/O 软件 中 ,可 以 将 控制 命令 送 到 控制 寄存 器 来 启动 外 设 工作 ;可 以 读 取 状 态 
寄存 器 来 了 解 外 设 和 设备 控制 器 的 状态 ;可 以 通过 直接 访问 数据 缓冲 寄存 器 来 进行 数据 的 
输入 和 输出 。 当 然 ,这 些 对 数据 缓冲 寄存 器 、 控 制 /状态 寄存 器 的 访问 操作 是 通过 相应 的 指 
令 来 完成 的 ,通常 把 这 类 指令 称 为 I/O 指令 。 因 为 这 些 1/O 指令 只 能 在 操作 系统 内 核 的 底 
层 1/O 软件 中 使 用 ,因而 它们 是 一 种 特权 指令 。 

例如 ,在 IA-32 中 ,提供 了 4 条 专门 的 1/O 指令 : IN、INS、OUT 和 OUTS, 其 中 的 IN 
和 INS 指令 用 于 将 设备 控制 器 中 某 个 寄存 器 的 内 容 取 到 CPU 内 的 通用 寄存 器 中 ;OUT 和 
OUTS 用 于 将 通用 寄存 器 的 内 容 输 出 到 设备 控制 器 的 某 个 寄存 器 中 。 
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8.5.3 I/O 端口 及 其 编 址 


系统 如 何在 I/O 指令 中 标识 要 访问 的 I/O 接口 中 的 某 个 寄存 器 呢 ? 这 就 是 IO 端口 
的 编 址 问题 。1/O 端口 实际 上 就 是 1/O 接口 中 的 寄存 器 ,例如 ,数据 缓存 寄存 器 就 是 数据 端 
口 ,控制 /状态 寄存 器 就 是 控制 /状态 端口 。 为 了 便于 CPU 对 I/O 设 备 的 快速 选择 和 对 I/O 
端口 的 方便 寻 址 ,必须 给 所 有 1/O 接口 中 各 个 可 访问 的 寄存 器 进行 编 址 ,有 独立 编 址 和 统 
一 编 址 两 种 方式 。 

1. 独立 编 址 方式 

独立 编 址 方式 对 所 有 的 I/O 端口 单独 进行 编号 ,使 它们 成 为 一 个 独立 的 I/O 地 址 空 
间 。 这 种 情况 下 ,指令 系统 中 需要 有 专门 的 输入 输出 指令 来 访问 I/O 端口 ,输入 输出 指令 
中 地 址 码 部 分 给 出 I/O 端口 号 。 

独立 编 址 方式 中 的 1/O 地 址 空间 和 主 存 地 址 空间 是 两 个 独立 的 地 址 空间 ,因而 无 法 从 
地 址 码 的 形式 上 区 分 , 故 需 用 专门 的 MO 指令 来 表明 访问 的 是 IO 地 址 空间 。CPU 执行 IO 
指令 时 ,会 产生 1/O 读 或 I/O 写 总 线 事务 ,CPU 通过 I/O 读 或 1/O 写 总 线 事 务 访问 I/O 
端口 。 

通常 ,I/O 端口 数 比 存 储 器 单元 少 得 多 ,选择 IO 端口 时 ,只 需 少 量 地 址 线 , 因 此 ,1/O 
端口 译 码 简 单 , 寻 址 速度 快 。 使 用 专用 1/O 指令 ,使 得 程序 清晰 ,便于 理解 和 检查 。 但 IO 
指令 往往 只 提供 简单 的 传输 操作 , 故 程序 设计 灵活 性 差 些 。 

例如 ,Intel 处 理 器 就 采用 独立 编 址 方式 ,其 IO 地 址 空间 由 2*(64K) 个 地 址 编号 组 成 ， 
每 个 编号 可 以 寻 址 一 个 8 位 的 VO 端口 。 任 何 两 个 连续 的 8 位 端口 可 看 成 一 个 16 位 端口 。 
该 处 理 器 提供 专门 的 IVO 指令 : IN(INS) 指 令 和 OUT(COUTS) 指令 。 

2. 统一 编 址 方式 

统一 编 址 方式 下 ,I/O 地 址 空间 与 主 存 地 址 空间 统一 编 址 , 即 ,将 主 存 地 址 空间 分 出 一 
部 分 地 址 给 IO 端口 进行 编号 ,因为 /O 端口 和 主 存单 元 在 同一 个 地 址 空间 的 不 同 分 段 
中 ,根据 地 址 范围 就 可 区 分 访问 的 是 I/O 端口 还 是 主 存单 元 ,因而 无 须 设 置 专门 的 IO 指 
令 , 只 要 用 一 般 的 访 存 指令 就 可 以 存 取 I/O 端口 。 因 为 这 种 方法 是 将 MO 端口 映射 到 主 存 
空间 的 某 个 地 址 段 上 ,所 以 ,也 被 称 为 “存储 器 映射 方式 ”。 

因为 统一 编 址 方式 下 1/O 访问 和 主 存 访问 共用 同一 组 指令 ,所 以 它 的 保护 机 制 可 由 分 
段 或 分 页 存储 管理 来 实现 ,而 无 须 专门 的 保护 机 制 。 这 种 存储 器 映射 方式 给 编程 提供 了 非 
常 大 的 灵活 性 。 任 何 对 内 存 存 取 的 指令 都 可 用 来 访问 位 于 主 存 空间 中 的 I/O 端口 ,并且 所 
有 有 关 主 存 的 寻 址 方式 都 可 用 于 I/O 端口 的 寻 址 。 例 如 ,可 用 访 存 指令 实现 CPU 寄存 器 
和 I/O 端口 的 数据 传送 ;可 用 AND、OR 或 TEST 等 指令 直接 操作 I/O 接口 中 的 控制 寄存 
器 或 状态 寄存 器 。 采 用 统一 编 址 法 的 另 一 个 好 处 是 便于 扩大 系统 吞吐 率 , 因 为 外 设 或 IO 
寄存 器 数目 除了 受 总 存储 容量 的 限制 外 ,几乎 不 受 其 他 因素 的 限制 ,这 在 大 型 控制 或 数据 通 
信 系 统 等 特殊 场合 很 有 用 。 不 过 ,因为 1/O 空间 占用 了 一 部 分 主 存 空间 的 地 址 ,使 得 主 存 
空间 减少 。 此 外 ,由 于 在 识别 1/O 端口 时 全 部 地 址 线 都 需 参与 地 址 译 码 ,使 译 码 电路 变 复 
杂 了 ,并 需 用 较 长 时 间 译 码 ,所 以 外 设 寻 址 时 间 变 长 了 。 
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8.6 LV/O 数据 传送 控制 方式 


1/O 数据 传送 主要 有 3 种 不 同 的 控制 方式 : 程序 直接 控制 ,中断 控制 和 DMA 控制 。 
8.6.1 程序 直接 控制 1/0 方式 


程序 直接 控制 方式 直接 通过 查询 程序 来 控制 主机 和 外 设 之 间 的 数据 交换 ,通常 有 以 下 
两 种 类 型 。 

1. 无 条 件 传 送 方式 

无 条 件 传 送 方 式 也 称 同步 传送 方式 ,主要 用 于 对 一 些 简 单 外 设 ( 如 开关 、 继 电器 、7 段 显 
示 器 或 机 械 式 传感器 等 ) 在 规定 的 时 间 用 相应 的 1/O 指令 对 接口 中 的 寄存 器 进行 信息 的 输 
入 或 输出 。 其 实质 是 通过 程序 来 定时 ,以 同步 传送 数据 ,适合 于 各 类 巡回 采样 检测 或 过 程控 
制 。 图 8. 16 是 一 个 采用 无 条 件 传 送 方式 的 接口 示意 图 。 图 中 的 接口 中 有 一 个 数据 锁 存 器 
和 一 个 三 态 缓冲 器 ,它们 共用 同一 个 地 址 ,可 以 看 成 是 同一 个 输入 输出 数据 寄存 器 ,通过 相 
应 的 1/O 指令 可 直接 对 该 寄存 器 进行 访问 ,在 读 写 信 号 的 控制 下 进行 数据 的 输入 和 输出 。 
由 此 可 见 ,无条件 传 送 的 接口 比较 简单 ,无 须 任何 定时 信号 和 状态 查询 ,只 需要 进行 相应 的 
读 写 控制 和 地 址 译 码 即 可 。 
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图 8. 16 无 条 件 传送 接口 


无 条 件 传送 方式 下 ,处 理 器 对 外 设 接口 进行 周期 性 的 定时 访问 ,直接 对 I/O 端口 进行 
数据 存 取 。 因 此 ,这 种 方式 下 ,处理 器 在 IO 操作 上 的 时 间 开 销 多 少 与 定时 访问 的 时 间 间 
隔 有 关 。 对 于 慢 速 设备 ,因为 定时 访问 时 间 间 隔 长 ,所 以 ,IO 操作 所 用 的 处 理 器 时 间 占 整 
个 处 理 器 时 间 的 比例 较 小 ,对 处 理 器 效率 影响 不 大 ;而 对 于 快速 设备 ,因为 需要 频繁 地 进行 
W/O 访问 ,所 以 ,很 多 处 理 器 时 间 被 /O 操作 占用 ,因而 这 种 方式 不 宜 用 于 高 速 设备 的 IO。 

2. 条 件 传 送 方式 

条 件 传送 方式 也 称 为 异步 传送 方式 。 对 于 一 些 较 复杂 的 IO 接口 ,往往 有 多 个 控制 、 
状态 和 数据 寄存 器 ,对 设备 的 控制 必须 在 一 定 的 状态 条 件 下 才能 进行 。 此 时 ,可 在 查询 程序 
中 安排 相应 的 I/O 指令 ,由 这 些 指令 直接 从 I/O 接口 中 取得 外 设 和 接口 的 状态 ,如 “就 绪 
(Ready)”“ 忙 (Busy)”“ 完 成 (Done)” 等 ,根据 这 些 状态 来 控制 外 设 和 主机 的 信息 交换 。 因 
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此 这 是 一 种 通过 查询 接口 中 的 状态 来 控制 数据 传送 的 方式 ,所 以 也 被 称 为 程序 查询 方式 ,其 
接口 结构 如 图 8. 17 所 示 。 
































ep 


图 8.17 条 件 传送 方式 接口 


图 8.17 所 示 的 I/O 接口 中 ,左边 是 I/O 总 线 侧 ,CPU 执行 相应 指令 ,通过 IVO 总 线 向 
1/O 接口 送出 “启动 ”命令 , 读 取 “就 绪 ? 等 状态 信息 ,并 向 (从 ) 数 据 缓冲 寄存 器 写 入 ( 读 取 ) 数 
据 。L/O 接口 的 右边 是 和 设备 相连 的 电缆 或 接口 插座 侧 , 可 以 送出 “启动 设备 ”命令 ,或 接收 
“设备 工作 结束 ”信号 ,并 可 通过 数据 线 和 设备 交换 数据 信息 。CPU 采用 条 件 传送 方式 通过 
该 1/O 接口 读 取 外 设 数据 的 过 程 如 下 : CPU 执行 相应 的 I/O 指令 向 该 接口 送出 “启动 ” 
命令 ,设备 选择 电路 对 CPU 送出 的 地 址 进行 译 码 ,选中 本 1/O 接口 ,这 样 ,与 非 门 输出 信号 
使 “完成 ?状态 触发 器 D 清 零 ,而 使 “启动 ”命令 触发 器 B 置 1; @1/O 接口 通过 连接 电缆 向 
外 设 发 送 “ 启 动 设备 ”命令 ; @ 外 设 准 备 好 一 个 数据 ,通过 电缆 向 I/O 接口 中 的 数据 缓冲 寄 
存 器 输入 数据 ; 图 外 设 向 MO 接口 回 送 “ 设 备 工作 结束 ”状态 信号 ,使 状态 触发 器 D 置 1 ,使 
命令 触发 器 B 清 零 ; @CPU 通过 执行 指令 不 断 读 取 1/O 接口 状态 。 因 和 触发 器 D 已 经 被 置 
1, 所 以 ,查询 到 外 设 “ 准 备 就 绪 ”; @CPU 通过 执行 MO 指令 从 数据 缓冲 寄存 器 读 取 数 据 。 
通过 以 上 6 个 步 又 ,CPU 和 外 设 之 间 完 成 一 次 数据 交换 过 程 。 

设备 是 否 适合 采用 条 件 传 送 方式 ,主要 取决 于 I/O 设备 本 身 的 特点 以 及 设备 是 否 能 够 
独立 启动 1/O 等 。 键 盘 和 鼠标 等 是 随机 启动 的 低速 IO 设备 , 当 用 户 按 下 键盘 按键 移动 
鼠标 或 单 击 鼠 标 按钮 时 , 便 启动 了 I/O 设备 的 输入 操作 。 对 于 这 类 自身 能 独立 启动 1/O 的 
设备 ,虽然 可 以 采用 定时 程序 查询 方式 ,但 是 ,由 于 设备 的 启动 是 由 用 户 随 机 进行 的 ,所 以 ， 
有 可 能 用 户 长 时 间 没 有 输入 而 引起 查询 程序 长 时 间 等 待 ,从 而 降低 处 理 器 的 使 用 效率 , 因 
此 ,这 类 设备 大 多 采用 后 面 介绍 的 中 断 方式 进行 IO; 对 于 由 操作 系统 启动 的 设备 , 则 只 有 
被 操作 系统 激活 后 才 需 要 查询 。 磁 盘 、 磁 带 和 光盘 存储 器 等 成 块 传送 设备 一 旦 被 启动 , 便 可 
连续 不 断 地 传送 一 批 数据 ,处 理 器 无 需 对 每 个 数据 的 传送 进行 启动 ,而 且 每 个 数据 之 间 的 传 
输 时 间 很 短 ,如 果 用 定时 查询 方式 , 则 会 因为 频繁 查询 而 使 处 理 器 为 /O 操作 所 花费 的 时 
间 比 例 变 得 很 大 ,因此 ,不 适合 采用 程序 查询 方式 。 像 针 式 打印 机 等 字符 类 设备 ,每 个 字符 
之 间 的 传输 时 间 较 长 ,并 且 每 传送 一 个 字符 需要 启动 一 次 ,因而 可 以 采用 程序 查询 方式 。 

根据 查询 被 启动 的 方式 的 不 同 ,条 件 式 程序 查询 方式 有 两 种 : 定时 查询 和 独占 查询 。 
可 根据 外 设 的 特点 选择 采用 定时 查询 方式 和 独占 查询 方式 。 

定时 查询 是 指 周期 性 地 查询 接口 状态 ,每 次 查询 总 是 一 直 等 到 条 件 满足 , 才 进 行 一 个 数 
据 的 传送 ,传送 完成 后 返回 到 用 户 程 序 。 定 时 查询 的 时 间 间 隔 与 设备 的 数据 传输 率 有 关 。 
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下 面 举例 说 明 对 于 不 同 1/O 传输 速率 的 设备 ,其 CPU 为 1/O 操作 所 花费 的 时 间 开 销 是 不 
同 的 。 

例 8.2 假定 查询 程序 中 所 有 操作 (包括 读 取 并 分 析 状 态 .传送 数据 以 及 重启 用 户 程序 
等 所 有 步骤 ) 所 用 的 时 钟 周期 数 至 少 是 400 个 ,处 理 器 的 主 频 为 500MHz, 即 处 理 器 每 秒 钟 
产生 500 X10 个 时 钟 周期 。 假 定 设备 一 直 持 续 工 作 , 采 用 定时 查询 方式 , 则 以 下 3 种 情况 
下 ,CPU 用 于 1/O 的 时 间 占 整个 CPU 时 间 的 百分比 各 是 多 少 ? 

(1) 鼠标 必须 每 秒 钟 至 少 被 查询 30 次 ,才能 保证 不 错过 用 户 的 任何 一 次 移动 。 

(2) 软盘 以 16 位 为 单位 进行 数据 传送 ,数据 传输 率 为 50kBps ,要 求 没 有 任何 数据 传送 
被 错过 。 

(3) 硬盘 以 16 字 节 为 单位 进行 数据 传送 ,数据 传输 率 为 4MBps, 要 求 没 有 任何 数据 传 

解 : 对 于 查询 方式 ,CPU 用 于 输入 输出 的 时 间 由 查询 次 数 乘 以 查询 操作 时 间 得 到 。 

(1) 对 于 鼠标 ,每 秒 钟 内 用 于 查询 的 时 钟 周期 数 至 少 为 30X400 二 12 000, 因 此 ,花费 的 
处 理 器 时 钟 周期 的 百分比 至 少 为 12 000/(500X10'*)s0. 002% 。 显 然 ,CPU 对 鼠标 的 查询 
操作 对 性 能 的 影响 不 是 很 大 。 

(2) 对 于 软盘 ,因为 每 次 数据 传送 的 单位 为 16 位 , 占 两 个 字 节 , 所 以 只 有 当 查询 的 速率 
达到 每 秒 50kB/2B 二 25k 次 时 才能 保证 没有 任何 数据 传送 被 丢失 。 因 此 ,每 秒 钟 内 用 于 查 
询 的 时 钟 周期 数 为 25kX400, 在 整个 CPU 时 间 中 所 占 的 百分比 为 25kX400/(500X10") 一 
2%。 这 个 开销 非常 大 ,但 在 只 有 少量 像 软盘 这 样 的 I/O 设备 的 低 端 系 统 中 ,这 个 开销 是 可 
以 忍受 的 。 

(3) 对 于 硬盘 ,要 求 每 次 以 16 字 节 为 单位 进行 查询 ,所 以 查询 的 速率 应 达到 每 秒 4MB/ 
16B 二 250k 次 的 速度 , 故 每 秒 钟 内 用 于 查询 的 时 钟 周期 数 为 250kX 400 ,用 于 硬盘 输入 输出 
的 时 间 占 整个 CPU 时 间 的 百分比 为 250kX400/(500X10)= 二 20%。 也 就 是 说 ,CPU 的 五 
分 之 一 时 间 被 用 于 查询 硬盘 ,显然 ,对 硬盘 用 查询 方式 是 不 可 取 的 。 

如 果 软 盘 和 硬盘 仅 有 25% 的 时 间 是 活动 的 ,那么 ,操作 系统 只 要 在 设备 被 激活 时 进行 
查询 ,所 以 查询 的 平均 开销 将 被 分 别 降 到 0. 5% 和 5%。 尽 管 这 样 降低 了 开销 ,但 是 一 旦 操 
作 系 统 发 出 一 个 对 设备 的 启动 命令 , 它 就 必须 接连 不 断 地 查询 ,因为 操作 系统 不 知道 什么 时 
候 设 备 会 响应 并 准备 好 一 次 传送 。 这 种 一 旦 设备 被 启动 ,CPU 就 一 直 持 续 对 设备 进行 查询 
的 方式 , 称 为 独占 查询 方式 。 

独占 查询 方式 下 ,CPU 被 独占 用 于 某 设备 的 1/0, 完 全 控制 IO 整个 过 程 , 即 CPU 花 
费 100% 的 时 间 在 IO 操作 上 ,此 时 ,外 设 和 CPU 完全 串 行 工作 。 其 查询 程序 的 流程 如 
图 8. 18 所 示 。 

从 图 8.18 中 可 看 出 ,在 任何 一 个 数据 传送 之 前 ,必须 先 读 接口 的 状态 ,判断 接口 是 否 
“就 绪 ", 只 有 在 接口 “就 绪 ? 的 情况 下 , 才 继 续 进行 传送 。 否 则 ,CPU 将 一 直 处 于 等 待 状态 直 
到 外 设 完 成 任务 而 使 接口 满足 条 件 为 止 。 这 里 “就 绪 ? 的 含义 ,对 于 输入 设备 而 言 ,意味 着 设 
备 已 将 数据 送 入 接口 中 的 数据 缓冲 器 ,CPU 可 以 从 接口 取 数据 ;对 于 输出 设备 而 言 ,意味 着 
数据 缓冲 器 已 空 ,CPU 可 以 将 数据 送 到 接口 中 。 

打印 机 的 输出 控制 方式 可 采用 这 种 查询 方式 。 假 定 一 个 用 户 进程 P 中 使 用 了 某 个 IO 
函数 ,请 求 在 打印 机 上 打印 一 个 具有 个 字符 的 字符 串 。 显 然 ,用 户 进 程 P 通 过 一 系列 过 
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图 8.18 独占 查询 程序 流程 图 


程 调用 后 ,会 执行 一 个 系统 调用 来 打开 打印 机 。 若 打印 机 空闲 , 则 用 户 进程 P 可 正常 使 用 
打印 机 ,因而 就 通过 一 个 系统 调 来 对 打印 机 进行 写 操作 ,从 而 陷入 操作 系统 内 核 进行 字符 串 
打印 。 

操作 系统 内 核 通 常 将 用 户 进程 缓冲 区 中 的 字符 串 首先 复制 到 内 核 空 间 , 然 后 查看 打印 
机 是 否 “就 绪 "*。 如 果 “ 就 绪 ”, 则 将 内 核 空间 缓冲 区 中 的 一 个 字符 输出 到 打印 控制 器 的 数据 
端口 中 ,并 发 出 “启动 打印 ”命令 ,以 控制 打印 机 打印 数据 端口 中 的 字符 ;如 果 打 印 机 “未 就 
绪 ”, 则 等 待 直到 其 “就 绕 ”"。 上 述 过 程 循环 执行 ,直到 字符 串 中 所 有 字符 打印 结束 。 图 8. 19 
中 的 程序 段 大 致 描述 了 采用 查询 方式 进行 打印 控制 的 过 程 。 








copy_string to_ kernel(strbuf, kernelbuf, n); // 将 字符 串 复制 到 内 核 缓冲 区 

for (i=0; i<n; i++) { // 对 于 每 个 打印 字符 循环 执行 
while (printer status != READY); / /等待 直到 打印 机 状态 为 “就 绪 ” 
*printer data port=kernelbuf [i]; // 向 数据 端口 输出 一 个 字符 
*printer control port=START; // 发 送 “ 启 动 打 印 ”命令 

有 

return (); // 返 回 








8. 19 程序 直接 控制 IO 的 一 个 例子 


程序 查询 1/O 方式 的 特点 是 简单 . 易 控 制 , 外 围 接口 控制 逻辑 少 。 但 是 ,CPU 需要 从 外 
设 接口 读 取 状 态 ,并 在 外 设 未 就 绪 时 一 直 处 于 忙 等 待 。 由 于 外 设 的 速度 比 处 理 器 慢 得 多 ,所 
以 ,在 CPU 等 待 外 设 完成 任务 的 过 程 中 浪费 了 许多 处 理 器 时 间 。 


8.6.2 程序 中 新 I/0 方式 


1. 中 断 的 概念 

在 程序 查询 I/O 方式 中 ,由 于 CPU 和 外 设 采用 串 行 工作 方式 ,使 处 理 器 时 间 花 在 等 待 
慢 速 的 外 设 上 。 为 避免 CPU 长 时 间 等 待 外 设 ,提出 了 “中 断 ” 控 制 IO 方式 。 

中 断 控制 IO 方式 的 基本 思想 是 ,当前 进程 P, 需要 进行 一 个 1/O 操作 时 , 它 会 先 启动 
外 设 进行 第 一 个 数据 的 1/O 操作 ,并 挂 起 执行 1/O 操作 的 进程 P, 使 其 被 阻塞 ,然后 从 就 绪 
队列 中 选择 另 一 个 进程 P, 执行 ,此 时 ,外 设 和 CPU 并 行 工 作 。 当 外 设 完 成 I/O 操作 , 便 向 
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CPU 发 中 断 请 求 。CPU 响应 请 求 后 ,就 中 止 正 在 执行 的 用 户 进程 P; , 转 和 一 个 “中 断 服务 
程序 ” ,在 “中 断 服务 程序 ”中 再 启动 随后 数据 的 MO 传送 任务 。“ 中 断 服务 程序 ”执行 完 后 ， 
返回 原 被 中 止 的 进程 P, 的 断 点 处 继续 执行 。 此 时 ,外 设 和 CPU 又 开始 并 行 工 作 。 

例如 ,对 于 上 述 请 求 打 印字 符 串 的 用 户 进程 P, 的 例子 ,如 果 采 用 中 断 控制 7O 方式 , 则 
操作 系统 处 理 I/O 的 过 程 如 图 8. 20 所 示 。 








copy_string to kernel(strbuf, kernelbuf, n); // 将 字符 串 复 制 到 内 核 缓冲 区 
enable interrupts(); // 开 中 断 ， 允 许 外 设 发 出 中 断 请 求 
while (printer status != RERADY) // 等 待 直到 打印 机 状态 为 “就绪” 
*printer data port=kernbuf [i]; // 向 数据 端口 输出 第 一 个 字符 
*printer control port=START; // 发 送 “ 启 动 打 印 ”命令 
scheduler (); // 阻塞 用 户 进程 PJ， 调 度 进程 Ps 执 行 




















(a) “字符 打印 ”系统 调用 服务 例 程 





if(n==0){ // 若 字符 串 打印 完 ， 则 














unblock_ user(); // 进程 P; 解除 阻塞 并 进入 就 绪 队 列 
}elsef 
*printer data port=kernelbuf [i]; // 向 数据 端口 输出 一 个 字符 
*printer control port=START; // 发 送 “ 启 动 打印 ”命令 
n = n-1; // 未 打印 字符 数 减 1 
i = i+l7 // 下 一 个 打印 字符 指针 加 1 
} 
acknowledge_interrupt (); // 中 断 回答 (清除 中 断 请 求 ) 
return from interrupt (); // 中 断 返回 





(b)“ 字 符 打 印 ” 中 断 服务 程序 
图 8. 20 ”中断 控制 I/O 的 一 个 例子 


从 图 8.21(a) 可 以 看 出 ,在 “字符 打印 ”系统 调用 服务 例 程 中 启动 打印 机 后 , 它 就 调用 处 理 
器 调度 程序 scheduler 来 调 出 进程 P, 执行 ,而 将 用 户 进程 P, 阻塞 。 在 CPU 执行 进程 P; 的 同 
时 ,打印 机 在 进行 打印 操作 ,CPU 和 打印 机 并 行 工 作 。 若 打印 机 打印 一 个 字符 需要 5ms, 则 在 
打印 一 个 字符 期 间 ,其 他 进程 可 以 在 CPU 上 执行 5ms 的 时 间 。 对 于 程序 直接 控制 7O 方式， 
CPU 在 这 5ms 的 时 间 内 只 是 不 断 地 查询 打印 机 状态 ,因而 整个 系统 的 效率 很 低 。 

中 断 控制 I/O 方式 下 ,一 旦 外 设 完 成 任务 ,就 会 向 CPU 发 中 断 请 求 。 对 于 图 8. 20 中 的 
例子 , 当 打 印 机 完成 一 个 字符 的 打印 后 ,就 会 向 CPU 发 中 断 请 求 , 然 后 CPU 暂停 正在 执行 
的 进程 P;, 调 出 “字符 打印 ”中 断 服务 程序 来 执行 。 如 图 8. 20(b) 所 示 , 中 断 服务 程序 首先 判 
断 是 否 已 完成 字符 串 中 所 有 字符 的 打印 ,若是 , 则 将 用 户 进程 P, 解除 阻塞 ,使 其 进入 就 绪 队 
列 ; 和 否则 ,就 向 数据 端口 送出 下 一 个 欲 打印 字符 ,并 启动 打印 ,将 未 打印 字符 数 减 1 和 下 一 个 
打印 字符 指针 加 1 后 ,执行 中 断 返 回 , 回 到 被 打 断 的 进程 P, 继续 执行 。 

图 8.21 和 图 8. 22 描述 了 中 断 控 制 IO 的 整个 过 程 。 

现代 计算 机 系统 中 都 配 有 完善 的 异常 和 中 断 处 理 系 统 ,CPU 的 数据 通路 中 有 相应 的 异 
常 和 中 断 的 检测 和 响应 逻辑 ,在 外 设 接 口中 有 相应 的 中 断 请 求 和 控制 逻辑 ,操作 系统 中 有 相 
应 的 中 断 服务 程序 。 这 些 中 断 硬件 线路 和 中 断 服务 程序 有 机 结合 ,共同 完成 异常 和 中 断 的 
处 理 过 程 。 中 断 I/O 方式 通过 让 处 理 器 执行 相应 的 中 断 服务 程序 来 完成 输入 输出 的 任务 ， 
所 以 称 为 程序 中 断 IO 方式 。 

外 部 中 断 由 外 设 完成 任务 或 出 现 特殊 情况 引起 。 如 外 设 任务 完成 .打印 机 缺 纸 、 磁 盘 检 
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图 8.21 中 断 控制 I/O 过 程 
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图 8.22 CPU 与 外 设 并 行 工作 


验 错 、 采 样 计时 到 、 键 盘 输 入 等 。 它 和 第 5 章 介 绍 的 内 部 异常 在 本 质 上 是 一 样 的 。 但 是 ,两 
者 相 比 ,它们 有 以 下 两 个 重要 的 不 同 点 。 

(1)“ 缺 页 ”或 “溢出 ”等 异常 事件 是 由 特定 指令 在 执行 过 程 中 产生 的 ,而 中 断 相对 于 指 
令 的 执行 则 是 异步 的 。 也 就 是 说 ,中 断 不 和 任何 指令 相关 联 , 也 不 阻止 任何 指令 的 完成 。 因 
此 ,CPU 只 需要 在 开始 一 个 新 指令 之 前 检测 是 否 有 外 部 发 来 的 中 断 请 求 即 可 。 

(2) 异常 的 发 生 和 异常 事件 的 类 型 是 由 CPU 自身 发 现 和 识别 的 ,不 必 通 过 外 部 的 某 个 
信号 通知 CPU ,而 对 于 中 断 ,CPU 必须 通过 对 外 部 中 断 请 求 线 进行 采样 ,并 从 总 线 上 获取 
相应 的 中 断 源 设备 的 标识 信息 ,才能 获知 哪个 设备 发 生 了 何 种 中 断 。 

2. 中 断 系统 的 基本 职能 和 结构 

现代 计算 机 的 中 断 处 理 功能 相当 丰富 ,没有 配置 中 断 系统 的 计算 机 是 令 人 无 法 想象 的 。 
每 个 计算 机 系统 的 中 断 功能 可 能 不 完全 相同 ,但 其 基本 功能 不 外 乎 以 下 几 个 方面 。 

(1) 及 时 记录 各 种 中 断 请 求 信 号 。 通 常用 一 个 中 断 请 求 寄存 器 来 保存 。 

(2) 自动 响应 中 断 请 求 。CPU 在 每 条 指令 执行 完 、 下 条 指令 取出 前 ,会 自动 检测 中 断 
请 求 引 脚 ,发 现 有 中 断 请 求 时 , 则 根据 情况 决定 是 否 响应 和 响应 哪个 中 断 请 求 。 

(3) 自动 判 优 。 在 有 多 个 中 断 请 求 同 时 产生 时 ,能 够 判断 出 哪个 中 断 的 优先 级 高 ,优先 
级 高 的 中 断 先 被 响应 。 

(4) 保护 被 中 断 程序 的 断 点 和 现场 。 因 为 中 断 响应 后 要 转 去 执行 中 断 服务 程序 ,而 执 
行 完 中 断 服务 程序 后 ,还 要 回 到 原来 的 程序 继续 运行 。 所 以 原 程序 被 中 止 处 的 指令 地 址 和 
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原 程序 的 程序 状态 和 各 寄存 器 的 内 容 等 必须 被 保存 ,以 便 能 正确 回 到 原 被 中 止 处 继续 执行 。 

(5) 中 断 屏蔽 。 通 过 中 断 屏蔽 实现 多 重 中 断 的 嵌 套 执行 ,中 断 屏 蔽 功能 通过 一 个 中 断 
屏蔽 字 寄 存 器 来 实现 。 

现代 计算 机 大 多 采用 中 断 谋 套 技 术 。 也 就 是 说 ,中 断 系 统 允 许 CPU 在 执行 某 个 中 断 
服务 程序 时 被 新 的 中 断 请 求 打 断 。 但 是 并 不 是 所 有 的 中 断 处 理 都 可 被 新 的 中 断 打 断 , 对 于 
一 些 重 要 的 紧急 事件 的 处 理 ,就 要 设置 成 不 可 被 其 他 新 中 断 事件 打 断 ,这 就 是 中 断 屏 蔽 的 概 
念 。 中 断 系 统 中 要 有 中 断 屏蔽 机 制 ,使 得 每 个 中 断 可 以 设置 它 允 许 被 哪些 中 断 打 断 , 不 允许 
被 哪些 中 断 打 断 。 这 个 功能 主要 通过 在 中 断 系 统 中 设置 中 断 屏蔽 字 来 实现 。 屏 项 字 中 的 每 
一 位 对 应 某 一 个 外 设 或 中 断 源 , 称 为 该 外 设 的 中 断 屏蔽 位 ,例如 ,用 1 表示 人 允许 中 断 ,0 表示 
不 允许 中 断 ( 即 屏蔽 中 断 )。CPU 还 可 以 通过 在 程序 中 执行 相应 的 指令 来 修改 屏蔽 字 的 内 
容 , 从 而 动态 地 改变 中 断 处 理 的 先后 次 序 。 

中 断 系统 的 中 断 控 制 器 基本 结构 如 图 8. 23 所 示 。 
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图 8.23 中 断 控制 器 的 基本 结构 


从 图 8. 23 可 以 看 出 ,来 自 各 个 设备 的 中 断 请 求 记 录 在 中 断 请 求 寄 存 器 中 的 对 应 位 ,每 
个 中 断 源 有 各 自 对 应 的 中 断 屏蔽 字 ,在 进行 相应 的 中 断 处 理 之 前 它 被 送 到 中 断 屏蔽 字 寄 存 
器 中 。 在 CPU 运行 程序 时 ,每 当 CPU 完成 当前 指令 的 执行 .取出 下 一 条 指令 之 前 ,就 会 通 
过 采样 中 断 请 求 信号 引 脚 ( 如 Intel 处 理 器 中 的 INTR) 来 自动 查看 有 无 中 断 请 求 信号 。 若 
有 , 则 会 发 出 一 个 相应 的 中 断 回答 信号 ,启动 图 8. 23 中 的 “中 断 查询 ” 线 ,在 该 信号 线 的 作用 
下 ,所 有 未 被 屏蔽 的 中 断 请 求 信号 一 起 送 到 一 个 中 断 判 优 电路 中 , 判 优 电路 根据 中 断 响应 优 
先 级 选择 一 个 优先 级 最 高 的 中 断 源 , 然 后 用 一 个 编码 器 对 该 中 断 源 进行 编码 ,得 到 对 应 的 中 
断 源 设备 类 型 号 ( 即 中 断 源 的 标识 信息 , 称 为 中 断 类 型 )。CPU 取得 中 断 源 的 标识 信息 后 ， 
经 过 一 系列 相应 的 转换 ,就 可 得 到 对 应 的 中 断 服务 程序 的 首 地 址 ,在 下 一 个 指令 周期 开始 ， 
CPU 执行 相应 的 中 断 服务 程序 。 

Intel 处 理 器 的 中 断 系统 功能 通过 可 编程 中 断 控制 器 (Programmable Interrupt 
Controller ,PIC) 实 现 。 如 图 8. 23 所 示 , 每 个 能 够 发 出 中 断 请 求 的 外 部 设备 控制 器 都 有 一 条 
IRQ 线 ,所 有 外 设 的 IRQ 线 连 到 PIC 对 应 的 IRQ 引 脚 : IRQ0、IRQ1、…、IRQi、… ,然后 被 
记录 在 PIC 的 中 断 请 求 寄存 器 中 。PIC 对 所 有 外 设 发 来 的 IRQ 请 求 按照 优先 级 进行 排队 ， 
如 果 至 少 有 一 个 IRQ 线 有 请 求 且 未 被 屏蔽 , 则 PIC 向 CPU 的 INTR 引 脚 发 中 断 请 求 。 
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在 中 断 处 理 ( 即 执行 中 断 服务 程序 ) 过 程 中 ,车 又 有 新 的 优先 级 更 高 的 中 断 请 求 发 生 , 那 
么 CPU 应 立即 中 止 正在 执行 的 中 断 服务 程序 , 转 去 处 理 新 的 中 断 ,这 种 情况 被 称 为 多 重 中 
断 或 中 断 艇 套 ,如 图 8. 24 所 示 。 
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图 8.24 中 断 嵌 套 过 程 















































图 8. 24 中 ,假定 在 执行 用 户 程序 时 ,发 生 了 1# 中 断 请 求 ,因为 用 户 程序 不 屏蔽 任何 中 
断 ,所 以 就 响应 1# 中断, 将 用 户 程序 的 断 点 保存 在 栈 中 ,然后 调 出 1# 中 断 服务 程序 执行 。 
而 在 执行 1# 中 断 的 过 程 中 ,又 发 生 了 2# 中 断 ,而 2# 中 断 的 处 理 优先 级 比 1# 高 , 即 1# 中 
断 的 屏蔽 字 对 2# 中断 是 开放 的 ,此 时 ,就 中 止 1# 中断 的 处 理 , 响 应 2# 中 断 ,把 1# 中 断 的 
断 点 信息 保存 在 栈 中 , 调 出 2 并 中断 的 中 断 服务 程序 执行 。 同 样 ,3# 中 断 也 可 以 打 断 2# 中 
断 的 执行 。 当 3 井中 断 处 理 完 返回 时 ,系统 从 栈 顶 取出 返回 的 断 点 信息 ,这 样 ,从 3# 中 断 返 
回 后 ,首先 回 到 2# 中断 的 断 点 (K3 十 1) 处 ,而 不 是 回 到 1# 中 断 或 用 户 程序 执行 。 利 用 栈 
能 正确 地 实现 中 断 舱 套 。 

从 上 面 描述 的 过 程 来 看 ,中 断 系统 中 存在 两 种 中 断 优先 级 。 一 种 是 中 断 响应 优先 级 , 另 
一 种 是 中 断 处 理 优先 级 。 中 断 响 应 优先 级 是 由 查询 程序 或 中 断 判 优 电路 决定 的 优先 权 , 它 
反映 的 是 多 个 中 断 同时 请 求 时 选择 哪个 先 被 响应 。 中 断 处 理 优先 级 是 由 各 自 的 中 断 屏 蔽 字 
来 动态 设 定 的 ,反映 了 本 中 断 与 其 他 所 有 中 断 之 间 的 处 理 优先 关系 。 在 多 重 中 断 系统 中 通 
常用 中 断 屏 项 字 对 中 断 处 理 优先 权 进 行动 态 分 配 。 

3. 中 断 过 程 

中 断 过 程 包括 两 个 阶段 : 中 断 响应 和 中 断 处 理 。 中 断 响应 阶段 由 硬件 实现 ,而 中 断 处 
理 阶 段 则 由 CPU 执行 中 断 服务 程序 来 完成 ,所 以 中 断 处 理 是 由 软件 实现 的 。 

1) 中 断 响应 

中 断 响 应 是 指 主机 发 现 中 断 请求 , 中 止 现行 程序 的 执行 ,到 调 出 中 断 服务 程序 这 一 过 
程 ,因此 ,中 断 响应 过 程 是 处 理 器 从 一 个 进程 切换 到 另 一 个 进程 的 过 程 。 在 此 过 程 中 处 理 器 
应 完成 以 下 3 个 任务 。 

(1) 保存 好 被 中 断 的 程序 的 断 点 处 的 关键 性 信息 。 

为 了 保证 被 中 断 程 序 在 从 中 断 服 务 程序 返回 后 在 断 点 处 能 继续 正确 执行 下 去 ,有 两 类 
信息 不 能 被 中 断 服务 程序 破坏 。 一 类 是 用 户 可 见 的 工作 寄存 器 的 内 容 , 这 些 工 作 寄存 器 存 
放 着 程序 执行 到 断 点 处 的 现行 值 , 一 般 把 这 类 信息 称 为 现场 ; 另 一 类 是 用 指令 无 法 直接 读 取 
的 程序 计数 器 PC 和 程序 状态 字 寄 存 器 PSWR 等 的 内 容 ,通常 把 这 类 信息 称 作 断 点 信息 。 
对 于 现场 信息 ,因为 是 用 指令 可 直接 访问 的 ,所 以 通常 在 中 断 服务 程序 中 通过 指令 把 它们 保 
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存 到 栈 中 , 即 由 软件 实现 ;而 对 于 断 点 信息 ,因为 必须 将 中 断 服务 程序 的 首 地 址 和 初始 程序 
状态 字 装 人 到 PC 和 PSWR 中 才能 转 到 中 断 服务 程序 执行 ,所 以 ,原来 在 PC 和 PSWR 中 的 
断 点 信息 应 由 处 理 器 在 中 断 响应 开始 时 自动 保存 到 一 个 特定 的 地 方 ( 栈 或 专门 寄存 器 ), 即 
由 硬件 实现 。 

(2) 识别 中 断 源 并 根据 中 断 响应 优先 级 进行 判 优 。 

中 断 响应 的 结果 是 调 出 相应 的 中 断 服务 程序 来 执行 ,因此 ,在 中 断 响 应 过 程 中 ,处 理 器 
必须 能 够 识别 出 哪些 中 断 有 请 求 , 并 且 在 有 多 个 中 断 请 求 出 现 的 情况 下 ,选择 响应 优先 级 最 
高 的 中 断 。 

(3) 调 出 中 断 服务 程序 。 

处 理 器 通过 相应 步骤 得 到 所 选择 的 中 断 源 对 应 的 中 断 服务 程序 的 首 地 址 和 初始 程序 状 
态 字 ,并 把 它们 分 别 送 PC 和 PSWR。 这 样 , 在 中 断 响应 结束 后 的 下 一 个 时 钟 周 期 ,处 理 器 
就 转 入 相应 的 中 断 服务 程序 执行 。 

处 理 器 响应 中 断 的 时 间 越 短 越 好 。 中 断 响应 时 间 是 中 断 系统 设计 时 需 考 虑 的 一 个 重要 
指标 , 它 反 映 了 计算 机 系统 的 灵敏 度 。 显 然 , 中 断 响应 时 间 与 断 点 保存 的 时 间 、 中 断 源 识 别 
和 判 优 的 速度 ,以 及 获得 中 断 服 务 程 序 首 地 址 和 初始 状态 的 时 间 都 有 关系 。 不 同 的 中 断 响 
应 处 理 机 制 , 得 到 的 中 断 响应 时 间 不 同 。 例 如 ,MIPS 处 理 器 采用 一 种 简单 的 响应 机 制 , 断 
点 信息 PC 直接 保存 在 特殊 的 寄存 器 EPC 中 , 而 不 需要 访问 内 存 来 存 取 栈 , 中 断 源 的 识别 
和 判 优 处 理 也 由 软件 进行 ,处 理 器 只 要 直接 把 进行 中 断 源 识别 和 判 优 处 理 的 程序 首 地 址 送 
到 PC 即 可 完成 中 断 响应 过 程 。 因 此 ,MIPS 处 理 器 的 中 断 响应 时 间 很 短 。 

很 显然 ,在 保护 断 点 或 保护 现场 的 过 程 中 ,如 果 又 有 新 的 中 断 被 响应 , 则 原 被 保存 的 断 
点 或 现场 就 会 被 破坏 ,因而 ,需要 有 一 种 机 制 能 保证 断 点 和 现场 的 保护 过 程 不 被 新 的 中 断 请 
求 打 断 。 通 常 , 用 一 个 “中 断 允许 ”触发 器 (或 状态 位 ) 来 实现 控制 。5. 5. 2 节 中 介绍 过 , 当 
CPU 中 的 “中 断 允许 ”触发 器 为 1 时 ,CPU 处 于 “中 断 允 许 ”( 或 “ 开 中 断 ”) 状 态 。CPU 只 有 
在 “中 断 允许 ”状态 时 , 才 有 可 能 响应 新 的 中 断 请 求 。 

因此 ,中 断 响应 的 条 件 有 以 下 3 个 。 

(1) CPU 处 于 “ 开 中 断 ” 状 态 。 

(2) 至 少 要 有 一 个 未 被 屏蔽 的 中 断 请 求 。 

(3) 当前 指令 刚 执行 完 ( 对 于 非 流 水 线 处 理 器 ,此 时 PC 中 存放 的 是 下 条 指令 的 地 址 ) 。 

当 处 理 器 同时 满足 上 述 3 个 条 件 时 ,就 响应 中 断 , 进 入 中 断 响 应 周期 , 它 是 一 种 特殊 的 
机 器 执行 周期 。 在 中 断 响应 周期 中 ,通过 执行 一 条 隐 指 令 ,完成 以 下 几 个 操作 。 

(1) 关中 断 : 将 中 断 允 许 标志 置 为 禁止 ( 即 “ 关 中 断 ”) 状态 ,这 时 将 屏蔽 掉 所 有 可 屏 项 
中 断 请 求 。 

(2) 保护 断 点 : 将 PC 和 PSW 送 入 栈 或 特殊 寄存 器 。 

(3) 识别 中 断 源 并 转 中 断 服务 程序 : 通过 某 种 方式 ,获得 优先 级 最 高 的 中 断 源 所 对 应 
的 中 断 服务 程序 的 首 地 址 和 初始 PSW ,并 分 别 送 PC 和 PSWR。 

中 断 源 的 识别 和 判 优 方法 可 分 为 软件 查询 和 硬件 判 优 两 大 类 。 

(1) 采用 软件 查询 方法 。 

当 CPU 检测 到 中 断 请 求 时 ,通过 中 断 响 应 ,自动 转 到 一 个 特定 的 中 断 查询 程序 ,在 中 
断 查 询 程序 中 , 按 中 断 优先 顺序 依次 查询 哪个 设备 有 中 断 请 求 ,并 转 到 第 一 个 查询 到 有 请 求 
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的 中 断 服务 程序 去 执行 。 对 于 这 种 用 软件 进行 中 断 识 别 的 方式 ,其 中 断 接口 的 硬件 结构 很 
简单 ,只 要 一 根 中 断 请 求 线 和 一 个 中 断 请 求 寄存 器 ,而 且 , 可 通过 改变 软件 中 的 查询 顺序 来 
改变 中 断 响应 优先 级 ,因而 比较 灵活 。 但 是 ,因为 软件 查询 速度 慢 , 因而 中 断 请 求 可 能 无 法 
得 到 实时 响应 。 图 8. 25 给 出 了 这 种 软件 查询 方式 下 中 断 处 理 程序 的 结构 和 中 断 接口 的 硬 
件 结构 。 
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保护 现场 
读 中 断 请 求 状态 二 数据 
1/O 请 求 > 一 [1#1/O 服务 程序 k 地 址 二 > 
E 控制 
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(a) 中 断 处 理 程序 的 结 (b) 软件 查询 中 断 的 硬件 结构 








图 8.25 软件 查询 中 断 方式 下 的 程序 结构 和 硬件 结构 


(2) 采用 硬件 判 优 方法 。 

硬件 判 优 方式 是 一 种 向 量 中 断 方式 , 它 不 同 于 软件 查询 的 中 断 处 理 技术 。 它 根据 中 断 
控制 器 接口 (如 PIC) 中 的 中 断 判 优 电路 和 编码 器 等 ,得 到 当前 所 有 未 被 屏蔽 的 中 断 请 求 中 
有 具有 最 高 响应 优先 权 的 中 断 源 类 型 ( 即 中 断 源 标识 信息 )。 例 如 ,图 8. 23 中 的 IRQi 中 的 i 
就 是 中 断 源 标识 信息 ,通过 编码 器 输出 的 i 最 终 被 送 到 CPU 中 ,CPU 根据 i 的 值 找到 对 应 
的 中 断 服务 程序 的 首 地 址 PC 和 初始 PSW。 

在 向 量 中 断 方式 下 ,通常 把 中 断 服务 程序 的 首 地 址 PC 和 初始 PSW 称 为 中 断 向 量 
IV(Interrupt Vector)。 所 有 中 断 向 量 存放 在 一 个 中 断 向 量 表 ( 也 称 中 断 入 口 地 址 表 ) 中 ,中 
断 向 量 所 在 的 地 址 称 为 向 量 地 址 VA(Vector Address) ,如 图 8. 26 所 示 。 每 个 中 断 向 量 在 
中 断 向 量 表 中 的 位 置 可 以 用 对 应 表 项 的 编号 来 得 到 ,这 个 编号 称 为 中 断 类 型 号 。 例 如 ,如 
图 8. 27 所 示 ,8086/8088 的 中 断 向 量 表 位 于 主 存 区 域 0000H~03FFH, 共 256 个 表 项 ,每 个 
表 项 占 4 个 字 节 ,记录 对 应 中 断 服务 程序 的 首 地 址 CS:IP。 向 量 地 址 由 中 断 类 型 号 乘 4 得 
到 。 例 如 ,除法 错 的 中 断 类 型 号 为 0, 故 其 向 量 地 址 为 0; 不 可 屏蔽 中 断 NMI 的 中 断 类 型 号 
为 2, 故 其 向 量 地 址 为 8; 外 部 MO 中 断 IRQi 的 中 断 类 型 号 为 32 十 i。 

现代 计算 机 系统 大 多 采用 独立 请 求 方式 来 进行 中 断 源 的 识别 和 判 优 。 这 种 方式 下 ,在 
中 断 控制 器 中 有 相应 的 优先 级 分 析 器 和 编码 器 。 各 个 中 断 请 求 信号 和 对 应 的 中 断 屏 项 位 进 
行 “与 ?操作 后 , 送 到 优先 级 分 析 器 中 进行 排队 判 优 ,最 后 通过 编码 器 输出 对 应 的 中 断 类 型 
号 , 即 中 断 源 标识 信息 。 这 种 方式 中 断 响应 速度 快 。 如 果 是 可 编程 的 中 断 控制 器 , 则 优先 级 
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可 灵活 设置 。Intel 8259A 就 是 一 个 典型 的 可 编程 中 断 控 制 器 。 图 8. 28 给 出 了 8259A 的 内 
部 结构 示意 图 。 















































局 一 王 三 | IV1 
PSW1 CS:IP (除法 错 ) 00~03 
VA2 PC2 CS:IP ”( 单 步 ) 04-07 
| V2 
PSW2 CS:IP (NMD) 08~0B 
Van| Pex | . 
n Md IVn CS:IP 
PSWn CS:IP 3FC~3FF 
图 8.26 中 断 向 量 表 图 8.27 8086/8088 的 中 断 向 量 表 
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图 8.28 8259A 内 部 结构 图 


8259A 中 断 控制 器 的 功能 如 下 : 

(1) 中 断 请 求 锁 存 .中 断 屏蔽 .中断 优先 级 排队 中断 源 标 识 信息 的 生成 等 ; 

(2) 既 可 支持 程序 查询 式 中 断 , 又 可 支持 向 量 式 中 断 ; 

(3) 支持 8 级 优先 权 , 通 过 多 片 级 联 , 最 多 可 构成 64 级 中 断 ; 

(4) 各 种 中 断 功 能 可 通过 编程 来 设 定 和 更 改 。 

例如 ,8259A 通过 IR。 一 玲 , 接收 各 路 中 断 请 求 ,存放 于 中 断 请 求 寄 存 器 中 ,并 汇集 成 一 
个 公共 的 中 断 请 求 信 号 INT, 送 往 CPU。CPU 响应 中 断后 ,发 出 中 断 响应 信号 INTA 回 送 
给 8259A。 优 先 级 分 析 器 经 过 中 断 优 先 级 比较 ,把 最 高 优先 级 的 中 断 类 型 号 经 数据 总 线 送 
给 CPU。 在 CPU 内 经 简单 变换 ,形成 向 量 地 址 , 据 此 访问 中 断 向 量 表 ,取出 中 断 入 口 地 址 
后 转 相 应 中 断 服务 程序 执行 。 
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2) 中 断 处 理 

中 断 处 理 的 过 程 就 是 CPU 执行 相应 的 中 断 服务 程序 (或 称 中 断 处 理 程序 ) 的 过 程 ,不 
同 的 中 断 源 其 对 应 的 中 断 服务 程序 不 同 。 

下 面 举例 说 明 中 断 嵌 套 过 程 中 处 理 咒 执行 程序 的 轨迹 。 

例 8.3 假定 某 中 断 系 统 有 4 个 中 断 源 ,分 别 记 为 1.2、3 和 4, 其 响应 优先 级 为 1 之 2 二 
3 二 4。 假定 CPU 在 执行 用 户 程序 ( 主 程序 ) 时 ,中 断 源 1.3 和 4 同时 发 生 了 中 断 请 求 ,而 在 
执行 3 号 中 断 对 应 的 中 断 服务 程序 的 过 程 中 , 2 号 中 断 源 又 发 生 了 中 断 请 求 。 分 别 写 出 处 
理 优 先 级 为 1 之 2 二 3 之 4 和 1>4 二 3 二 2 时 各 中 断 源 对 应 的 中 断 服 务 程序 的 屏蔽 字 以 及 
CPU 完成 中 断 服务 程序 的 过 程 。 

解 : 中 断 处 理 优先 级 为 1 之 2 之 3 之 4 时 的 屏蔽 字 如 表 8. 1 所 示 。 根 据 题 意 ,在 执行 用 户 
程序 时 同时 发 生 了 1、3 和 4 号 中 断 , 由 于 响应 优先 级 为 1 之 2 之 3 过 4, 所 以 应 先 响应 1 号 中 
断 ,1 号 中 断 的 屏蔽 字 为 1111, 所 以 在 1 号 中 断 处 理 过 程 中 不 响应 任何 中 断 , 直 到 1 号 中 断 
处 理 完 回 到 用 户 程序 。 此 时 ,还 有 3 和 4 号 中 断 未 被 处 理 , 根 据 响应 优先 级 ,应 先 响应 3 号 
中 断 , 调 出 3 号 中 断 服务 程序 执行 ,在 处 理 3 号 中 断 的 过 程 中 ,出 现 了 2 号 中 断 请 求 ,因为 3 
号 中 断 的 屏蔽 字 为 0011, 即 对 2 号 中 断 是 开放 的 ,所 以 2 号 中 断 被 响应 , 打 断 了 3 号 中 断 的 
处 理 。2 号 中 断 处 理 过 程 中 没有 出 现 比 它 的 处 理 优先 级 更 高 的 中 断 请 求 , 所 以 2 号 中 断 能 
一 直 处 理 完 ,然后 回 到 被 打 断 的 3 号 中 断 服 务 程序 继续 执行 ,执行 完 后 回 到 用 户 程序 。 最 后 响 
应 4 号 中 断 , 处 理 完 4 号 中 断后 ,再 回 到 用 户 程序 。 其 CPU 执行 程序 的 轨迹 如 图 8. 29 所 示 。 























表 8.1 处 理 优先 级 为 1 一 2>3 二 4 中 断 服务 程序 
时 的 屏蔽 字 @ ======= ==== 
屏 项 字 @ -------- 9 | | 
中 断 服务 程序 本 二 训 和 | 
1 号 2 号 3 号 4 号 = 上 -一 
1 号 中 断 源 i @ |- 加 es 
2 号 中 断 源 0 1 人 | 
3 号 中 断 源 0 0 1 1 © 
加 
4 号 中 断 源 0 0 0 1 @ 
(假定 1 是 屏蔽 ,0 是 开放 ) 图 8.29 处 理 优先 级 为 1>2>3>4 时 
CPU 运动 轨迹 


表 8.2 给 出 了 中 断 处 理 优先 级 为 1 二 4 二 3 二 2 时 的 屏蔽 字 。 根 据 表 8. 2 给 定 的 屏蔽 字 
来 考察 CPU 执行 程序 的 运动 轨迹 。 在 执行 用 户 程序 时 同时 发 生 1.3 和 4 号 中 断 ,根据 响应 
优先 级 ,应 先 响应 1 号 中 断 ,而 1 号 中 断 的 屏蔽 字 为 1111, 所 以 在 执行 1 号 中 断 的 过 程 中 不 
响应 任何 中 断 , 直 到 1 号 中 断 处 理 完 回 到 用 户 程序 。 此 时 ,还 有 3 和 4 号 中 断 未 被 处 理 , 根 
据 响应 优先 级 ,应 先 响应 3 号 中 断 , 调 出 3 号 中 断 服 务 程序 执行 。 在 处 理 3 号 中 断 的 过 程 
中 ,出 现 了 2 号 中 断 请 求 , 同 时 在 执行 用 户 程序 时 发 生 的 4 号 中 断 请 求 还 未 被 响应 ,因为 3 
号 中 断 的 屏蔽 字 为 0110, 即 对 2 号 中 断 屏蔽 而 对 4 号 中 断 开放 ,此 时 ,响应 优先 级 排队 电路 
中 ,只 有 4 号 中 断 请 求 被 排队 判 优 ,显然 ,4 号 中 断 请 求 被 响应 ,因此 ,CPU 中 止 3 号 中 断 的 
处 理 , 调 出 4 号 中 断 来 处 理 。4 号 中 断 处 理 过 程 中 没有 出 现 比 它 的 处 理 优先 级 更 高 的 中 断 
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请 求 , 因 此 ,一 直到 它 处 理 完 ,再 回 到 被 打 断 的 3 号 中 断 进 行 处 理 。CPU 执行 完 3 号 中 断 服 
务 程序 后 , 回 到 用 户 程 序 。 最 后 响应 2 号 中 断 ,处理 完 2 号 中 断后 ,再 次 回 到 用 户 程序 。 其 
CPU 执行 程序 的 轨迹 如 图 8. 30 所 示 。 


表 8.2 处 理 优先 级 为 1 二 4 二 3 二 2 




















时 的 屏 隘 字 ww 2 
屏 项 字 8 @l | 
中 断 程序 级 别 © = 
1 号 2 号 3 号 4 号 仙人 ec | 
1 号 中 断 源 i 1 | Yl | ! | | 
Or 全 二 二 
2 0 1 0 0 | || | 
号 中 断 源 主 各 天 一 一 0 | [el 
3 号 中 断 源 0 了 1 0 加 
@ 
| 图 8. 30 ”处 理 优先 级 为 1 二 4 二 3 二 2 时 
(假定 1 是 屏蔽 ,0 是 开放 ) CPU 运动 轨迹 


前 面 给 出 了 在 外 设 和 主机 之 间 进 行 数据 交换 的 两 种 输入 输出 方式 : 程序 查询 和 程序 中 
断 方式 。 这 两 种 方法 用 在 低 带 宽 设备 上 较 好 ,因为 对 于 低速 设备 ,我 们 更 关心 怎样 降低 设备 
控制 器 和 接口 的 成 本 ,而 不 是 关心 怎样 提高 数据 传输 速率 。 下 面 的 例子 说 明 用 中 断 方式 控 
制 硬 盘 和 主机 之 间 的 数据 交换 时 CPU 的 开销 如 何 。 

例 8.4 假定 一 个 字 长 为 32 位 的 CPU 的 主 频 为 500MHz, 即 CPU 每 秒 钟 产 生 500X 
10° 个 时 钟 周期 。 硬 盘 使 用 中 断 1/O 方式 进行 数据 传送 ,其 传输 速率 为 4MBps, 每 次 中 断 传 
输 一 个 16 字 节 的 数据 ,要 求 没有 任何 数据 传输 被 错过 。 每 次 中 断 的 开销 (包括 用 于 中 断 响 
应 和 中 断 处 理 的 时 间 ) 是 500 个 时 钟 周期 。 如 果 硬 盘 仅 有 5% 的 时 间 进 行 数据 传送 ,那么 ， 
CPU 用 于 硬盘 数据 传送 的 时 间 占 整个 CPU 时 间 的 百分比 为 多 少 ? 

解 : 若 硬盘 数据 传送 采用 中 断 IO 方式 , 则 每 次 中 断 传输 一 个 16 字 节 的 数据 。 为 保证 
没有 任何 数据 传输 被 错过 ,CPU 每 秒 钟 应 该 至 少 执行 4MB/16B 王 250k 次 中 断 , 因 此 ,每 秒 
钟 内 用 于 硬盘 数据 传输 中 断 的 时 钟 周期 数 为 250kX500 二 125 X10 , 故 CPU 用 于 硬盘 数据 
传送 的 时 间 占 125X105s/(500X105) 一 25%%。 

从 另外 一 个 角度 来 考虑 也 可 以 得 出 同样 的 结论 。 由 题 意 知 ,CPU 通过 中 断 方式 进行 硬 
盘 数 据 的 传送 ,硬盘 每 准备 好 一 个 16 字 节 的 数据 , 则 发 出 中 断 请 求 。 硬 盘 准 备 一 个 数据 
(16B) 的 时 间 为 16B/4MB 王 4ws,CPU 用 于 一 个 数据 1/O 的 时 间 ( 包 括 中 断 响应 并 处 理 的 时 
间 ) 是 500 个 时 钟 周期 ,相当 于 500/500M= lws。 由 此 可 见 , 假 定 硬 盘 一 直 在 工作 的 话 , 则 
硬盘 每 隔 4ys 申请 一 次 中 断 ,每 次 中 断 CPU 花 lws 进行 硬盘 数据 传送 ,因此 ,CPU 花 在 硬 
盘 数据 传送 的 时 间 占 整个 CPU 时 间 的 1/4, 即 25%。 

假定 硬盘 并 不 是 一 直 在 操作 ,而 是 仅 有 5% 的 时 间 在 工作 , 则 CPU 用 于 硬盘 数据 传送 
的 时 间 占 整个 CPU 时 间 的 百分比 为 25%X5%==1.25%。 

对 于 程序 查询 方式 ,在 外 设 准 备 数据 时 ,由 于 CPU 一 直 在 等 待 外 设 完成 ,所 以 CPU 是 
有 开销 的 ,对 于 中 断 /OO 方式 ,在 外 设 准备 数据 时 ,CPU 被 安排 执行 其 他 程序 ,外 设 和 CPU 
并 行 工作 ,因而 CPU 在 外 设 准 备 数据 时 没有 开销 ,只 有 响应 和 处 理 中 断 来 进行 数据 传送 时 
CPU 才 需 要 花费 时 间 为 1/O 服务 。 这 就 是 中 断 I/O 方式 相对 于 程序 查询 方式 的 优点 。 
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但 是 ,对 于 硬盘 这 种 高 速 外 设 的 数据 传送 ,如 果 采 用 中 断 IO 方式 , 则 CPU 用 于 IO 
的 开销 是 无 法 忽视 的 。 高 速 外 设 速度 快 ,因而 中 断 请 求 频率 高 ,导致 CPU 被 频繁 地 被 打 
断 ,而 且 , 由 于 需要 保存 断 点 和 现场 、 开 中 断 /关中 断 \ 设 置 中 断 屏蔽 字 等 ,使 得 中 断 响应 和 中 
断 处 理 的 额外 开销 很 大 ,因此 ,在 高 速 外 设 情况 下 ,采用 中 断 I/O 方式 传送 数据 是 不 合适 
的 ,通常 采用 DMA 方式 。 


8.6.3 DMA 方式 


DMA(Direct Memory Access) 即 直接 存储 器 存 取 ,该 输入 输出 方式 用 专门 的 DMA 接 
口 硬件 来 控制 外 设 与 主 存 间 的 直接 数据 交换 ,数据 不 通过 CPU。 通 常 把 专门 用 来 控制 总 线 
进行 DMA 传送 的 接口 硬件 称 为 DMA 控制 器 。 在 进行 DMA 传送 时 ,CPU 让 出 总 线 控制 
权 , 由 DMA 控制 器 控制 总 线 ,通过 “挪用 ”一 个 主 存 周期 完成 和 主 存 之 间 的 一 次 数据 交换 ， 
或 独占 若干 个 主 存 周期 完成 一 批 数 据 的 交换 。 

DMA 方式 主要 用 于 磁盘 等 高 速 设备 的 数据 传送 。 这 类 高 速 设备 的 记录 方式 多 采用 数 
据 块 组 织 方式 ,数据 块 之 间 有 间隙 ,因而 数据 传输 时 数据 块 之 间 的 时 间 间 隔 较 长 ,而 数据 块 
内 部 数据 间 的 传输 时 间 间隔 较 短 ,因此 ,这 类 设备 大 传 关 参数 的 设置 
多 采用 成 批 数据 交换 方式 。 (初始 化 ) -一 一- 一 查询 方式 

DMA 方式 与 中 断 1/0 方式 一 样 ,也 是 采用 “请 
求 -响应 ”方式 ,只 是 中 断 1/O 方式 请 求 的 是 处 理 器 的 
时 间 ,而 DMA 方式 下 请 求 的 是 总 线 控制 权 。 不 过 ， 查找 扇 区 -------- 一 中 断 方式 
在 用 DMA 方式 进行 硬盘 等 高 速 设备 的 数据 传输 过 | 
程 中 ,也 要 用 到 程序 查询 和 中 断 I/O 方式。 图 8.31 。。 连续 该 
给 出 了 某 进 程 P, 在 磁盘 和 主 存 之 间 进行 数据 交换 的 | 
过 程 示意 图 。 首 先 ,进程 P, 采用 程序 查询 方式 设置 
传送 参数 ,通过 执行 相应 的 指令 对 有 关 参 数 寄存 器 进 
行 初始 化 ;然后 CPU 执行 1/O 指令 发 出 “ 寻 道 ”命令 图 8.31 DMA 方式 进行 磁盘 数据 
到 磁盘 控制 器 ,由 磁盘 控制 器 控制 磁盘 驱动 器 开始 移 传送 过 程 
动 磁头 ,同时 ,CPU 切换 到 其 他 进程 (如 P,) 执 行 ; 当 磁盘 完成 寻 道 操作 后 ,向 CPU 发 出 * 寻 
道 结束 ”中 断 请 求 ;CPU 响应 并 处 理 该 中 断 请 求 , 中 止 正 在 执行 的 进程 P, ,在 中 断 服务 程序 
中 通过 执行 1/O 指令 发 出 “查找 扇 区 ”命令 到 磁盘 控制 器 ,CPU 启动 “查找 扇 区 ”命令 后 , 返 
回 被 中 止 的 进程 P, 执行 ; 当 磁 盘 完成 扇 区 查找 操作 ,就 向 CPU 发 出 “查找 结束 ”中 断 请 求 ; 
CPU 响应 并 处 理 该 中 断 , 又 一 次 中 止 正 在 执行 的 进程 P, ,然后 在 中 断 服 务 器 程序 中 启动 进 
行 DMA 传送 ,由 DMA 控制 器 控制 数据 在 主 存 和 磁盘 之 间 进行 数据 传送 ;CPU 启动 DMA 
传送 后 ,又 回 到 被 中 止 的 进程 P, 继续 执行 ,直到 DMA 传送 结束 ;此 时 ,由 DMA 控制 器 发 
出 “DMA 结束 ”中 断 请 求 ,CPU 响应 并 处 理 该 中 断 请 求 , 对 传送 的 数据 进行 校 验 等 后 处 理 。 

1. 三 种 DMA 方式 

由 于 DMA 控制 器 和 CPU 共享 主 存 , 所 以 可 能 出 现 两 者 争 用 主 存 的 现象 ,为 使 两 者 协 
调 使 用 主 存 ,DMA 通常 采用 以 下 3 种 方式 之 一 进行 数据 传送 。 

(1) CPU 停止 法 。DMA 传输 时 ,由 DMA 控制 器 发 一 个 停止 信号 给 CPU ,使 CPU 脱 
离 总 线 ,停止 访问 主 存 ,直到 DMA 传送 一 块 数据 结束 。 


时 衣 ， SSe 一 中 断 方式 


二 一 DMA 方式 


结束 、 校 验 -------- 一 中 断 方式 
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(2) 周期 挪用 法 。DMA 传输 时 ,CPU 让 出 一 个 总 线 事务 周期 ,由 DMA 控制 器 挪用 一 
个 主 存 周 期 来 访问 主 存 ,传送 完 一 个 数据 后 立即 释放 总 线 。 是 一 种 单字 传送 方式 。 
(3) 交替 分 时 访问 法 。 每 个 存储 周期 分 成 两 个 时 间 片 ,一 个 给 CPU , 另 一 个 给 DMA 控 
制 器 ,这 样 在 每 个 存储 周期 内 ,CPU 和 DMA 控制 器 都 可 访问 存储 器 。 
2. DMA 操作 步骤 
DMA 控制 器 与 设备 控制 器 一 样 , 其 中 也 有 若干 个 寄存 器 ,用 于 存放 I/O 传送 所 需 的 各 
种 参数 。 这 些 寄 存 器 包括 主 存 地 址 寄存 器 、. 字 计数 器 、 控 制 寄 存 器 .设备 地 址 寄存 器 等 ,此 
外 ,还 有 其 他 的 控制 逻辑 ,能 控制 设备 通过 总 线 与 主 存 直接 交换 数据 。 
DMA 方式 的 1/O 操作 过 程 由 以 下 几 个 步 又 来 完成 。 
第 一 步 : DMA 控制 器 的 预 置 (初始 化 ) 。 
在 进行 数据 传送 之 前 ,CPU 先 执行 一 段 初始 化 程序 ,完成 对 DMA 控制 器 中 各 参数 寄 
存 器 的 初始 值 的 设 定 。 主 要 操作 包括 以 下 3 个 方面 。 
(1) 准备 内 存 区 。 若 是 从 外 设 输入 数据 , 则 进行 内 存 缓冲 区 的 申请 ,并 对 缓冲 区 进行 初 
始 化 ;若是 输出 数据 到 外 设 , 则 先 在 内 存 准备 好 数据 。 
(2) 设置 传送 参数 。 执 行 输入 输出 指令 来 测试 外 设 状态 ,并 对 DMA 控制 器 设置 各 种 
参数 。 例 如 : 
内 存 首 址 一 地 址 寄存 器 
字 计 数值 一 字 计数 器 
传送 方向 一 控制 寄存 器 
设备 地 址 一 设备 地 址 寄存 器 
(3) 发 送 “ 启 动 DMA 传送 ”命令 ,然后 调度 CPU 执行 其 他 进程 。 
第 二 步 : DMA 数据 传送 (DMA 传送 ) 。 
CPU 对 DMA 传送 参数 进行 预 置 并 发 送 “ 启 动 DMA 传送 ”命令 后 ,就 把 数据 传送 的 工 
作 交 给 了 DMA 控制 器 。 在 整个 DMA 传送 过 程 中 ,不 再 需要 CPU 的 参与 ,完全 由 DMA 控 
制 器 实现 数据 的 传送 。 
DMA 控制 器 给 出 内 存 地 址 ,并 在 其 读 / 写 线 上 发 出 * 读 ?命令 或 “ 写 ? 命 令 , 随 后 在 数据 
总 线 上 给 出 数据 。DMA 控制 器 每 完成 一 个 数据 的 传送 ,就 将 字 计 数值 减 1 ,并 修改 主 存 地 
址 。 当 字 计 数 器 为 0 时 ,完成 所 有 LI/O 操作 。 
第 三 步 : DMA 结束 处 理 ( 后 处 理 ) 。 
当 字 计数 器 为 0, 则 发 出 “DMA 结束 ”中 断 请 求 信号 给 CPU , 转 人 中断 服务 程序 ,做 一 
些 数据 校 验 等 后 处 理工 作 。 
从 上 述 过 程 来 看 ,DMA 方式 与 程序 查询 和 中 断 方式 不 同 ,CPU 不 直接 执行 输入 输出 指 
令 来 实现 数据 传送 ,而 只 是 进行 一 些 辅助 工作 ,包括 传送 参数 的 设置 发送“ 启动 DMA 传 
送 ” 命 令 和 最 后 的 数据 校 验 等 。DMA 方式 的 处 理 过 程 如 图 8. 32 所 示 。 
DMA 方式 下 ,CPU 只 要 在 最 初 的 DMA 控制 器 初始 化 和 最 后 处 理 “DMA 结束 ”中 断 时 介 
和 人 ,而 在 整个 一 块 数据 传送 过 程 中 都 不 需要 CPU 参与 ,因而 CPU 用 于 1/O 的 开销 非常 小 。 
下 面 举例 说 明 使 用 DMA 方式 进行 硬盘 和 主 存 之 间 的 数据 传送 时 处 理 器 所 花 的 开销 。 
例 8.5 假定 CPU 的 主 频 为 500MHz, 即 CPU 每 秒 钟 产 生 500X10° 个 时 钟 周期 。 硬 
盘 采 用 DMA 方式 进行 数据 传送 ,其 数据 传输 率 为 4MBps, 每 次 DMA 传输 的 数据 量 为 
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copy_string_to_kernel (strbuf, kernelbuf, n); // 将 字符 申 复 制 到 内 核 缓冲 区 
initialize DMA( ); // 初始 化 PMA 控制 器 (准备 传送 参数 ) 
*DMA_ control port=START; // 发 送 “ 启 动 pMA 传 送 ” 命 令 
scheduler ( ); // 阻塞 用 户 进程 P， 调 度 其 他 进程 执行 








(a) “字符 打印 ”系统 调用 处 理 例 程 





























acknowledge interrupt (); // 中 断 回答 (清除 中 断 请 求 ) 
unblock user( ); // 用 户 进程 ?解除 阻塞 ， 进 入 就 绪 队 列 
return from interrupt (); // 中 断 返回 











(b) “DMA 结 束 ” 中 断 服务 程序 
图 8.32 DMA 控制 1/O 过 程 


8KB, 要 求 没 有 任何 数据 传输 被 错过 。 如 果 CPU 在 DMA 初始 化 设置 和 启动 硬盘 操作 等 方 
面 花 了 1000 个 时 钟 周期 ,并 且 在 DMA 传送 完成 后 的 中 断 处 理 需 要 500 个 时 钟 , 则 在 硬盘 
100% 处 于 工作 状态 的 情况 下 ,CPU 花 在 硬盘 IO 操作 上 的 时 间 百 分 比 大 约 是 多 少 ? 

解 : 从 硬盘 上 读 / 写 8KB 的 数据 ,需要 花费 的 时 间 为 8SKB/4MBps 一 2. 048X10 3s 
2X10 “3s, 所 以 如 果 硬 盘 一 直 处 于 工作 状态 ,为 了 没有 任何 数据 传输 被 错过 ,CPU 必须 每 秒 
钟 有 1/(2X10 习 )==0. 5X10 次 DMA 传送 ,因此 ,一 秒 钟 内 CPU 花 在 硬盘 1/O 操作 上 的 
时 钟 周期 数 为 0.5X10;X (1000 十 500)=750X10-:。 因 此 ,CPU 花费 在 硬盘 1/O 上 的 时 间 
占 整个 CPU 时 间 的 百分比 大 约 为 750X10-3/500X105 王 1.5X10-? 一 0.15% 。 

DMA 方式 被 用 于 硬盘 I/O 时 ,在 数据 传送 期 间 将 不 消耗 任何 处 理 器 周期 ,所 以 即使 硬 
盘 一 直 在 进行 I/O 操作 ,CPU 为 它 服务 的 时 间 也 仅 占 0.15%。 事 实 上 ,硬盘 在 大 多 数 时 间 
内 并 不 进行 数据 传送 ,因此 ,CPU 为 IO 所 花费 的 时 间 会 更 少 。 当 然 , 如 果 CPU 同时 要 竞 
争 存储 器 ,存储 器 由 于 用 于 DMA 传送 ,因而 CPU 会 被 延迟 与 存储 器 交换 数据 。 但 通过 使 
用 cache,CPU 可 避免 大 多 数 访 存 冲 突 。 因 此 ,通常 存储 器 带宽 的 大 部 分 都 可 让 给 外 设 的 
DMA 传送 使 用 。 

3. DMA 与 存储 系统 

当 DMA 方式 引入 到 1/O 系统 中 时 ,存储 系统 和 CPU 之 间 的 关系 会 变 得 更 复杂 。 没 有 
DMA 控制 器 时 ,所 有 对 存储 器 的 访问 都 来 自 CPU ,通过 MMU 中 的 地 址 转换 和 cache 访问 
来 进行 存储 器 存 取 。 有 了 DMA 后 ,系统 中 就 有 了 另 一 个 访问 存储 器 的 路 径 , 它 不 通过 地 址 
转换 机 制 和 cache 层次 。 这 样 ,在 虚拟 存储 器 和 cache 系统 中 就 会 产生 一 些 问题 。 这 些 问 
题 的 解决 通常 要 结合 硬件 和 软件 两 方面 的 技术 支持 。 

在 虚拟 存储 器 系统 中 ,页 面 数 据 同 时 有 物理 地 址 和 虚拟 地 址 ,那么 ,DMA 是 以 虚拟 地 
址 还 是 以 物理 地 址 工作 呢 ? 很 明显 , 若 用 虚拟 地 址 , 则 在 DMA 接口 中 必须 将 页 面 的 虚拟 地 
址 转换 为 物理 地 址 ;而 使 用 物理 地 址 所 带 来 的 问题 是 ,每 次 DMA 传送 不 能 跨 页 。 如 果 一 个 
1/O 请 求 跨 页 ,那么 ,一 次 请 求 的 一 个 数据 块 在 送 到 主 存 时 ,就 可 能 不 在 主 存 的 一 个 连续 的 
存储 区 中 ,因为 每 个 虚 页 可 以 映射 到 主 存 的 任意 一 个 实 页 框 中 ,所 以 多 个 连续 的 虚 页 不 可 能 
正好 对 应 连续 的 实 页 框 。 因 此 ,如 果 DMA 采用 物理 地 址 ,就 必须 限制 所 有 的 DMA 传送 都 
必须 在 一 个 页 面 之 内 进行 。 否则, DMA 就 只 能 采用 虚拟 地 址 ,在 这 种 情况 下 ,DMA 接口 中 
应 该 有 一 个 小 的 类 似 页 表 的 地 址 映射 表 , 用 于 将 虚拟 地 址 转换 为 物理 地 址 。 在 DMA 初始 
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化 的 时 候 , 由 操作 系统 进行 地 址 映射 。 这 样 ,DMA 接口 就 不 用 关心 传送 数据 在 主 存 的 具体 
位 置 了 。 另 外 一 种 方法 是 操作 系统 把 一 次 传送 分 解 成 多 次 小 数据 量 传送 ,每 次 只 限定 在 一 
个 物理 页 面 内 进行 。 

采用 cache 的 系统 中 ,一 个 数据 项 可 能 会 产生 两 个 副本 ,一 个 在 cache 中 , 另 一 个 在 存储 
器 中 ,因此 具有 DMA 的 cache 系统 也 会 产生 问题 。DMA 控制 器 直接 向 存储 器 发 出 访 存 请 
求 而 不 通过 cache, 这 时 ,DMA 看 到 的 一 个 主 存单 元 的 值 与 CPU 看 到 的 cache 中 的 副本 可 
能 不 同 。 考 虑 从 磁盘 中 读 一 个 数据 ,DMA 直接 将 其 送 到 主 存 ,如 果 有 些 被 DMA 写 过 的 单 
元 在 cache 中 ,那么 ,以 后 CPU 读 取 这 些 单元 的 时 候 , 就 会 得 到 一 个 老 的 值 。 类 似 地 ,如 果 
cache 采用 写 回 (write-back) 策 略 , 当 一 个 新 的 值 在 cache 中 写 入 时 ,这 个 值 并 未 被 马上 写 
回 ,而 此 时 车 DMA 直接 从 主 存 读 ,那么 读 的 值 可 能 是 老 的 值 。 这 个 问题 称 为 过 时 数据 问题 
或 1/0 一致 性 问题 。 

解决 /O 数据 一 致 性 问题 的 方法 有 3 种 。 一 种 方式 是 让 1/O 活动 通过 cache 进行 ,这 
样 就 保证 了 在 I/O 读 时 能 读 到 最 新 的 数据 ,而 I/O 写 时 能 更 新 cache 中 的 任何 数据 。 当 然 ， 
将 所 有 I/O 都 通过 cache, 其 代价 是 非常 大 的 。 因 为 ,一 般 W/O 数据 很 少 马 上 要 用 到 ,如 果 
这 样 的 数据 把 CPU 正在 使 用 的 有 用 数据 蔡 换 出 去 ,那么 就 会 影响 cache 的 命中 率 ,对 CPU 
的 性 能 带 来 很 多 负面 影响 。 第 二 种 方式 是 让 操作 系统 在 I/O 读 时 有 选择 地 使 某 些 cache 块 
无 效 , 而 在 1/O 写 时 迫使 cache 进行 一 次 写 回 操作 ,这 种 操作 经 常 被 称 为 cache 刷新 ,这 种 
方式 需要 少量 硬件 支持 。 因 为 大 部 分 cache 刷新 操作 仅 发 生 在 DMA 数据 块 访问 时 ,而 
DMA 访问 又 不 经 常 发 生 , 所 以 ,如 果 软 件 能 方便 而 有 效 地 实现 这 种 方法 ,可 能 是 比较 有 效 
的 一 种 。 第 三 种 方式 是 通过 一 个 硬件 机 制 来 选择 被 刷新 或 使 无 效 的 cache 项 ,这 种 用 硬件 
方式 来 保证 cache 一 致 性 的 方式 大 多 被 用 在 多 处 理 器 系统 中 。 


8.7 I/O 子 系统 概述 


1/O 接口 的 引入 给 外 设 与 主机 进行 信息 交换 提供 了 有 效 “ 通 路 ”。 但 是 还 必须 提供 一 种 
手段 ,让 CPU 能 方便 地 找到 要 进行 信息 交换 的 设备 ,并 将 用 户 的 1/O 请 求 转换 成 对 设备 的 
控制 命令 。 

现代 计算 机 I/O 系统 的 复杂 性 一 般 都 隐藏 在 操作 系统 中 ,最 终 用 户 或 用 户 程 序 只 需 通 
过 一 些 简单 的 命令 或 系统 调用 就 能 使 用 各 种 外 设 ,而 无 须 了 解 设备 具体 工作 细节 。 

对 于 使 用 应 用 软件 的 最 终 用 户 ,操作 系统 通过 命令 行 方式 、 批 命令 方式 或 图 形 界面 方式 
为 最 终 用 户 提供 了 直接 使 用 计算 机 资源 的 手段 ,用 户 通 过 输入 相应 的 命令 或 点 击 鼠 标 将 I/ 
O 请 求 传递 给 操作 系统 。 

对 于 用 户 程 序 , 所 有 高 级 语言 的 运行 时 系统 都 提供 了 执行 I/O 功能 的 高 级 机 制 , 例 如 ， 
C 语言 中 提供 了 像 print() 和 scanf() 等 这 样 的 标准 IO 库 函 数 ,C++ 语言 中 提供 了 如 
一 二 (输入 ) 和 二 二 (输出 ) 这 样 的 重 载 /O 操作 符 。 从 用 户 在 高 级 语言 程序 中 通过 I/O 函 
数 或 1/O 操作 符 提出 W/O 请 求 ,到 1/O 设备 响应 并 完成 I/O 请 求 , 整 个 过 程 涉 及 多 个 层次 
的 I/O 软件 和 I/O 硬件 的 协调 工作 。 用 户 程序 需要 从 某 个 设备 输入 信息 或 将 结果 送 到 外 
设 时 ,只 要 通过 系统 调用 (以 低级 语言 方式 提供 ) 或 库 函数 调用 (以 高 级 语言 方式 提供 ) 将 
LO 请 求 提交 给 操作 系统 即 可 。 
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与 计算 机 系统 一 样 ,I/O 子 系统 也 采用 层次 结 有 | 
构 。 图 8.33 是 MO 子 系统 层次 结构 示意 图 。 运行 时 系统 | ramom 

W/O 子 系统 包含 I/O 软件 和 IO 硬件 两 大 部 | 与 设备 无 关 的 1O 软 件 
分 。L/O 软件 包括 最 上 层 提出 IO 请 求 的 用 户 空 设备 驱动 程序 [ramon 
间 I/O 软件 ( 称 为 用 户 I/O 软件 ) 和 在 底层 操作 系 中 断 服务 程序 
统 中 对 I/O 进行 具体 管理 和 控制 的 内 核 空间 IJO | V0 硬件 | 
软件 ( 称 为 系统 I/O 软件 ) ,系统 I/O 软件 又 分 3 个 图 8.33 1/O 子 系统 层次 结构 
层次 ,分 别 是 与 设备 无 关 的 I/O 软件 层 、 设 备 驱 动 
程序 层 和 中 断 服务 程序 层 。I/O 硬件 在 系统 I/O 软件 的 控制 下 完成 具体 的 W/O 操作 。 

操作 系统 在 IO 子 系统 中 承担 极其 重要 的 作用 ,这 主要 是 由 IVO 子 系统 以 下 3 个 特性 
决定 的 。 

(1) 共享 性 。I/O 子 系统 被 多 个 进程 共享 ,因此 必须 由 操作 系统 对 共享 的 I/O 资源 统 
一 调度 管理 ,以 保证 用 户 程序 只 能 访问 自己 有 权 访 问 的 那 部 分 I/O 设备 或 文件 ,并 使 系统 
的 吞吐 率 达到 最 佳 。 

(2) 复杂 性 。1/O 设备 控制 的 细节 比较 复杂 ,如 果 由 最 上 层 的 用 户 程 序 直接 控制 , 则 会 
给 广大 的 应 用 程序 开发 者 带 来 麻烦 ,因而 需 操作 系统 提供 专门 的 驱动 程序 进行 控制 ,这 样 可 
以 对 应 用 程序 员 屏 项 设备 控制 的 细节 ,简化 应 用 程序 开发 。 

(3) 异步 性 。I/O 子 系统 的 速度 较 慢 ,而 且 不 同 设备 之 间 的 速度 也 相差 较 大 ,因而 ,IO 
设备 与 主机 之 间 的 信息 交换 方式 通常 使 用 异步 的 中 断 IO 方式 ,中 断 导 致 从 用 户 态 向 内 核 
态 转移 ,因此 ,I/O 处 理 须 在 内 核 态 完 成 ,通常 由 操作 系统 提供 中 断 服务 程序 来 处 理 I/O。 

用 户 程序 总 是 通过 某 种 I/O 函数 或 /O 操作 符 请 求 IO 操作 。 例 如 ,用 户 程序 需要 读 
一 个 磁盘 文件 中 的 记录 时 , 它 可 以 通过 调用 C 语言 标准 I/O 库 函 数 fread(), 也 可 以 直接 调 
用 read 系统 调用 的 封装 函数 read() 来 提出 1/O 请 求 。 不 管用 户 程 序 中 调用 的 是 C 库 函 数 
还 是 系统 调用 封装 函数 ,最 终 都 是 通过 操作 系统 内 核 提 供 的 系统 调用 来 实现 1/O。 图 8. 34 
给 出 了 用 户 程 序 调用 printf() 来 调 出 内 核 提供 的 write 系统 调用 的 过 程 。 







































































用 户 空 间 、 运 行 在 用 户 态 内 核 空间 、 运 行 在 内 核 态 
和 | 1 外 1 

1 1 1 
| 调用 printfo) | 一 | IO 库 函 数 printfO -一 一- 封装 函数 writeO 上 | 一 一 一 -一 -一 | write 系统 调用 |， 
1 。 用 户 程序 C 语 言 函 数 库 | | 上 啤 | 


图 8.34 用 户 程序 .C 语言 库 和 内 核 之 间 的 关系 


如 图 8. 34 所 示 ,对 于 一 个 C 语 言 用 户 程序 , 若 在 某 过 程 ( 函 数 ) 中 调用 了 printf(), 则 在 
执行 到 调用 printf() 的 语句 时 , 便 会 转 到 C 语言 函数 库 中 对 应 的 1/O 标准 库 函 数 printf() 去 
执行 ,而 printf() 最 终 又 会 转 到 调用 函数 write() ;在 执行 到 调用 write() 的 语句 时 , 便 会 通过 
一 系列 步 又 在 内 核 空间 中 找到 write 对 应 的 系统 调用 服务 例 程 来 执行 ,从 而 从 用 户 态 转 到 
内 核 态 执行 。 

每 个 系统 调用 的 封装 函数 会 被 转换 为 一 组 与 具体 机 器 架构 相关 的 指令 序列 ,这 个 指令 
序列 中 ,至 少 有 一 条 陷阱 指令 ,在 陷阱 指令 之 前 可 能 还 有 若干 条 传送 指令 用 于 将 IO 操作 
的 参数 送 入 相应 的 寄存 器 。 
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例如 ,在 IA-32 中 ,陷阱 指令 就 是 INT n 指令 ,也 称 为 软 中 断 指令 。 在 早期 ITA-32 架构 
中 ,Linux 系统 将 int $ 0x80 指令 用 作 系 统 调用 ,在 系统 调用 指令 之 前 会 有 一 串 传 送 指令 ， 
用 来 将 系统 调用 号 等 参数 传送 到 相应 的 寄存 器 。 系 统 调 用 号 通常 在 EAX 寄存 器 中 ,可 根 
据 系 统 调用 号 选择 执行 一 个 系统 调用 服务 例 程 。 用户 进程 的 I/O 请 求 通过 调 出 操作 系统 
中 相应 的 系统 调用 服务 例 程 来 实现 。 

I/O 子 系统 工作 的 大 致 过 程 如 下 : 首先 ,CPU 在 用 户 态 执行 用 户 进程 , 当 CPU 执行 到 
系统 调用 的 封装 函数 对 应 的 指令 序列 中 的 系统 调用 指令 时 ,会 从 用 户 态 陷 入 内 核 态 ; 转 到 内 
核 态 执行 后 ,CPU 根据 系统 调用 指令 执行 时 EAX 寄存 器 中 的 系统 调用 号 ,选择 执行 一 个 相 
应 的 系统 调用 服务 例 程 ;在 系统 调用 服务 例 程 的 执行 过 程 中 可 能 需要 调用 具体 设备 的 驱动 
程序 ;在 设备 驱动 程序 执行 过 程 中 启动 外 设 工 作 , 外 设 准备 好 后 发 出 中 断 请 求 ,CPU 响应 中 
断后 ,就 调 出 中 断 服务 程序 执行 ,在 中 断 服务 程序 中 控制 主机 与 设备 进行 具体 的 数据 交换 。 

图 8.35 是 Linux 系统 中 write 操作 的 执行 过 程 示意 图 。 
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用 户 程序 。。 Print 标准 订 函数 。 write 封装 函 数 。 ; ; 系统 调用 处 理 程序 “系统 调用 服务 例 程 : 


8.35 在 Linux 系 统 中 write 操作 的 执行 过 程 


如 图 8. 35 所 示 ,假定 用 户 程序 中 有 一 个 语句 调用 了 库 函 数 printf() ,在 printf() 函数 中 
又 通过 一 系列 的 函数 调用 ,最 终 转 到 调用 write() 函数 。 在 write() 函数 对 应 的 指令 序列 中 ， 
一 定 有 一 条 用 于 系统 调用 的 陷阱 指令 ,在 IA-32/Linux 系统 中 就 是 指令 int $0x80 或 
sysenter。 该 陷阱 指令 执行 后 ,进程 就 从 用 户 态 陷入 到 内 核 态 执行 。Linux 中 有 一 个 系统 调 
用 的 统一 入 口 , 即 系统 调用 处 理 程序 system_call() 。CPU 执行 陷阱 指令 后 , 便 转 到 system 
_call() 的 第 一 条 指令 执行 。 在 system_call() 中 ,将 根据 EAX 寄存 器 中 的 系统 调用 号 跳 转 
到 当前 系统 调用 对 应 的 系统 调用 服务 例 程 sys_write() 去 执行 。system_call() 执 行 结束 时 ， 
从 内 核 态 返 回 到 用 户 态 下 的 陷阱 指令 后 面 一 条 指令 继续 执行 。 

Linux 系统 下 write() 函数 的 用 法 如 下 : 


ssize 七 write(int fd, const void x*buf, size t n); 


这 里 的 类 型 size_t 和 ssize_t 分 别 是 unsigned int 和 int。 字 节 数 nn 通常 是 unsigned 类 
型 ,但 是 ,因为 返回 值 还 可 能 是 一 1 ,所 以 ,返回 类 型 只 能 是 带 符号 整数 类 型 int。 

write() 封 装 函数 的 源 代码 编译 后 生成 如 图 8. 36 所 示 的 汇编 代码 。 按 照 函 数 调用 时 压 
栈 的 顺序 可 知 , 在 某 函 数 中 调用 write() 函 数 时 ,最 先 被 压 人 栈 中 的 参数 是 ,其 次 是 buf ,最 
后 是 fd, 参 数 压 栈 后 执行 调用 指令 call, 此 时 ,再 将 返回 地 址 压 栈 。 在 执行 完 call 指令 后 , 便 
跳 转 到 图 8. 36 所 示 的 write 过 程 执行 。 执 行 第 2 行 的 push 指令 后 ,当前 栈 指针 寄存 器 内 
容 RLesp] 指 向 刚 保存 的 REebx], RL[esp] 十 4 指向 返回 地 址 ,RLesp] 十 8 指向 参数 fd， 
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RLesp] 十 12 指 向 参数 buf, RLespj] 十 16 指向 参数 n。 
1 write: 
2 pushl Sebx // 将 EBX 入 栈 
3 movl $4, Seax // 将 系统 调用 号 送 EAX 
4 movl 8 (Sesp), Sebx // 将 第 1 个 参数 fd 送 EBX 
5 movl 12(%esp), %ecx // 将 第 2 个 参数 buf 送 ECX 
6 movl 16 (Sesp), ®Sedx // 将 第 3 个 参数 n 送 EDX 
7 int $0x80 // 进 入 系统 调用 处 理 程序 system_cal1 执 行 
8 cmpl $-125, Seax / /检查 返 回 值 
9 jbe , // 若 无 错误 ， 则 跳 转 至 .L1 
10 negl Seax // 将 返回 值 取 负 送 EAX 
movl Seax, error // 将 EAX 的 值 送 error 
二 movl $-1, Seax // 将 write 函 数 返 回 值 置 -1 
13 .了 1: popl Sebx 
14 ret 











图 8.36 ”write() 封 装 函 数 对 应 的 汇编 代码 


图 8.36 给 出 的 汇编 代码 中 ,第 3 行 到 第 6 行 用 来 将 系统 调用 的 参数 送 到 不 同 的 寄存 
器 ,其 中 ,系统 调用 号 4 保存 在 寄存 器 EAX 中 。 第 7 行 是 陷阱 指令 int $0x80,CPU 执行 到 
该 指令 时 ,将 从 用 户 态 切换 到 内 核 态 , 调 出 系统 调用 处 理 程序 system_call() 执 行 。 在 
system_call() 中 ,根据 系统 调用 号 为 4, 再 跳 转 到 相应 的 系统 调用 服务 例 程 sys_write() 执 
行 , 以 完成 将 一 个 字符 串 写 入 文件 的 功能 ,其 中 ,字符 串 的 首 地 址 buf 由 ECX 指定 ,字符 串 
的 长 度 n 由 EDX 指出 , 写 入 文件 的 文件 描述 符 fd 由 EBX 指出 。system_call() 执行 结束 
时 ,从 内 核 返回 的 参数 存放 在 EAX 中 。 若 返回 参数 表明 在 内 核 中 执行 系统 调用 发 生 错 误 ， 
则 将 EAX 取 负 后 得 到 错误 码 ,存放 在 error 中 ,并 将 write() 函 数 的 返回 值 置 一 1; 若 没有 发 
生 错 误 , 则 write() 函数 的 返回 值 就 是 从 内 核 系 统 调 用 返回 的 值 , 它 通常 是 真正 写 人 文件 的 
字 节 数 。 


8.8 内核 空间 I/O 软件 


所 有 用 户 程序 中 提出 的 1/O 请 求 最 终 都 是 通过 系统 调用 实现 的 ,通过 系统 调用 封装 函 
数 中 的 陷阱 指令 转 入 内 核 空间 的 IO 软件 执行 。 内 核 空间 的 I/O 软件 分 3 个 层次 ,分 别 是 
与 设备 无 关 的 I/O 软件 层 ,设备 驱动 程序 层 和 中 断 服务 程序 层 , 其 中 ,后 两 个 层次 与 1O 硬 
件 密切 相关 。 


8.8.1 与 设备 无 关 的 1/O 软件 


一 旦 通过 陷阱 指令 调 出 系统 调用 处 理 程序 (如 Linux 中 的 system_call) 执 行 , 就 开始 执 
行内 核 空间 的 I/O 软件 。 首 先 执行 的 是 与 具体 设备 无 关 的 IO 软件 ,主要 完成 所 有 设备 公 
共 的 1/O 功能 ,并 向 用 户 层 软 件 提供 一 个 统一 的 接口 。 通 常 , 它 包括 以 下 几 个 部 分 : 设备 驱 
动 程序 统一 接口 ,缓冲 处 理 、 错 误 报告 .打开 与 关闭 文件 以 及 逻辑 块 大 小 处 理 等 。 

1. 设备 驱动 程序 统一 接口 

对 于 某 个 外 设 具体 的 I/O 操作 ,通常 需要 通过 执行 设备 驱动 程序 来 完成 。 而 外 设 的 种 
类 繁多 .控制 接口 不 一 致 ,导致 不 同 外 设 的 设备 驱动 程序 千差万别 。 如 果 计 算 机 系统 中 每 次 
出 现 一 种 新 的 外 设 , 都 要 为 添加 一 种 新 设备 驱动 程序 而 修改 操作 系统 ,那么 就 会 给 操作 系统 


Co 
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开发 者 和 系统 用 户 带 来 很 大 的 麻烦 。 

为 此 ,操作 系统 为 所 有 外 设 的 设备 驱动 程序 规定 了 一 个 统一 的 接口 ,新 设备 驱动 程序 只 
要 按照 统一 的 接口 规范 来 编制 ,就 可 以 在 不 修改 操作 系统 的 情况 下 ,在 系统 中 添加 新 设备 驱 
动 程序 并 使 用 新 的 外 设 进 行 IO。 

因为 采用 了 统一 的 设备 驱动 程序 接口 ,因而 ,内 核 中 与 设备 无 关 的 I/O 软件 包含 了 所 
有 外 设 统一 的 公共 接口 中 的 处 理 部 分 。 例 如 ,在 图 8. 35 所 示 的 Linux 系统 调用 函数 执行 过 
程 中 , 刚 陷 人 内 核 后 所 执行 的 system_call() 函数 就 是 与 设备 无 关 的 I/O 软件 的 一 部 分 。 

为 了 简化 对 外 设 的 处 理 , 在 内 核 高 层 I/O 软件 中 ,将 所 有 外 设 都 抽象 成 一 个 文件 ,设备 
名 和 文件 名 在 形式 上 没有 任何 差别 ,因而 被 称 为 设备 文件 名 。 内 核 中 与 设备 无 关 的 1/O 软 
件 必 须 将 不 同 的 设备 名 和 文件 名 映射 到 对 应 的 设备 驱动 程序 。 有 关 文 件 管理 和 设备 管理 的 
细节 请 参看 操作 系统 方面 的 参考 资料 。 

2. 缓冲 区 处 理 

用 户 进程 在 提出 1/O 请 求 时 ,指定 的 用 来 存放 1/O 数据 的 缓冲 区 在 用 户 空间 中 。 例 
如 ,文件 读 函 数 fread(buf,size,num,fp) 中 的 缓冲 区 buf 在 用 户 空间 中 。 通 过 陷阱 指令 陷入 
内 核 态 后 ,内 核 通常 会 在 内 核 空间 中 再 开辟 一 个 或 两 个 缓冲 区 ,这 样 ,在 底层 I/O 软件 控制 
设备 进行 1/O 操作 时 ,就 直接 使 用 内 核 空间 中 的 缓冲 区 来 存放 1/O 数据 。 为 何不 直接 使 用 
用 户 空间 缓冲 区 呢 ?” 因 为 ,如 果 直 接 使 用 用 户 空间 缓冲 区 ,那么 ,在 外 设 进行 1/O 期 间 , 由 
于 用 户 进程 被 挂 起 而 使 用 户 空 间 的 缓冲 区 所 在 页 面 有 可 能 被 蔡 换 出 去 ,这 样 就 无 法 获得 组 
冲 区 中 的 W/O 数据 。 

每 个 设备 的 1/O 都 需要 使 用 缓冲 区 ,因而 缓冲 区 的 申请 和 管理 等 处 理 是 所 有 设备 公共 
的 ,可 以 包含 在 与 设备 无 关 的 I/O 软件 部 分 。 

此 外 ,为 了 充分 利用 数据 访问 的 局 部 性 特点 ,操作 系统 通常 在 内 核 空间 开辟 高 速 缓 存 ， 
将 大 多 数 最 近 从 块 设备 读 出 或 写 入 的 数据 保存 在 作为 高 速 缓存 的 RAM 区 中 。 与 设备 无 关 
的 1/O 软件 会 确定 所 请 求 的 数据 是 否 已 经 存在 在 高 速 缓存 RAM 中 ,如 果 存 在 ,就 可 能 不 需 
要 访问 磁盘 。 

3. 错误 报告 

在 用 户 进程 中 ,通常 要 对 所 调用 的 W/O 库 函 数 返回 的 信息 进行 处 理 , 有 时 返回 的 是 错 
误 码 。 例 如 ,fopen() 函 数 的 返回 值 为 NULL 时 ,表示 无 法 打开 指定 文件 。 

虽然 很 多 错误 与 特定 设备 相关 ,必须 由 对 应 的 设备 驱动 程序 来 处 理 , 但 是 ,所 有 1/O 操 
作 在 内 核 态 执行 时 所 发 生 的 错误 信息 都 是 通过 与 设备 无 关 的 IO 软件 返回 给 用 户 进 程 的 ， 
也 就 是 说 ,错误 处 理 的 框架 是 与 设备 无 关 的 。 

有 些 错 误 属 于 编程 错误 。 例如, 请求 了 某 个 不 可 能 的 MO 操作 ; 写 信息 到 一 个 输入 设 
备 或 从 一 个 输出 设备 读 信息 ;指定 了 一 个 无 效 的 缓冲 区 地 址 或 者 参数 ;指定 了 不 存在 的 设 
备 。 这 些 错误 信息 由 设备 无 关 1/O 软件 检测 出 来 并 直接 返回 给 用 户 进程 ,无 须 再 进入 更 底 
层 的 WO 软件 处 理 。 

还 有 一 类 是 W/O 操作 错误 ,例如 , 写 一 个 已 被 破坏 的 磁盘 扇 区 ;打印 机 缺 纸 ; 读 一 个 已 
关闭 的 设备 。 这 些 错 误 由 相应 的 设备 驱动 程序 检测 出 来 并 处 理 , 若 驱动 程序 无 法 处 理 , 则 驱 
动 程序 将 错误 信息 返回 给 设备 无 关 I/O 软件 ,再 由 设备 无 关 I/O 软件 返回 给 用 户 进 程 。 
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4. 打开 与 关闭 文件 

对 设备 或 文件 进行 打开 或 关闭 等 /O 函数 所 对 应 的 系统 调用 并 不 涉及 具体 的 I/O 操 
作 , 只 要 直接 对 RAM 中 的 一 些 数据 结构 进行 修改 即 可 ,这 部 分 工作 也 是 由 设备 无 关 软 件 来 
处 理 的 。 

5. 逻辑 块 大 小 的 处 理 

为 了 给 所 有 的 块 设备 和 所 有 的 字符 设备 分 别提 供 一 个 统一 的 抽象 视图 ,以 隐藏 不 同 块 
设备 或 不 同 字符 设备 之 间 的 差异 ,与 设备 无 关 的 I/O 软件 为 所 有 块 设备 或 所 有 字符 设备 设 
置 了 统一 的 逻辑 块 大 小 。 例 如 ,对 于 块 设备 ,不 管 磁盘 扇 区 和 光盘 扇 区 有 多 大 ,所 有 逮 辑 数 
据 块 的 大 小 相同 ,这 样 一 来 ,高层 I/O 软件 就 只 需要 处 理 简 化 的 抽象 设备 ,从 而 在 高 层 软件 
中 简化 了 数据 定位 等 处 理 。 


8.8.2 设备 驱动 程序 


设备 驱动 程序 是 与 设备 相关 的 I/O 软件 部 分 。 每 个 设备 驱动 程序 只 处 理 一 种 外 设 或 
一 类 紧密 相关 的 外 设 。 每 个 外 设 或 每 类 外 设 都 有 一 个 设备 控制 器 ,其 中 包含 各 种 IO 端 
口 。 通 过 执行 设备 驱动 程序 ,CPU 可 以 向 控制 端口 发 送 控制 命令 来 启动 外 设 , 可 以 从 状态 
端口 读 取 状态 来 了 解 外 设 或 设备 控制 器 的 状态 ,也 可 以 从 数据 端口 中 读 取 数据 或 向 数据 端 
口 发 送 数 据 等。 显然 ,设备 驱动 程序 中 包含 了 许多 1/O 指令 ,通过 执行 I/O 指令 ,CPU 可 以 
访问 设备 控制 器 中 的 IO 端口 ,从 而 控制 外 设 的 1/O 操作 。 

根据 设备 所 采用 的 I/O 控制 方式 的 不 同 ,设备 驱动 程序 的 实现 方式 不 同 。 

若 采 用 程序 直接 控制 1/O 方式 ,那么 设备 驱动 程序 将 采用 如 图 8. 20 所 示 的 处 理 过 程 来 
控制 外 设 的 IO 操作 ,驱动 程序 的 执行 与 外 设 的 IO 操作 完全 串 行 , 驱 动 程序 一 直 等 到 全 
部 完成 用 户 程序 的 W/O 请 求 后 结束 。 驱 动 程序 执行 完成 后 ,返回 到 与 设备 无 关 的 IO 软 
件 , 最 后 ,再 返回 到 用 户 进程 。 这 种 情况 下 ,请求 LO 的 用 户 进 程 在 IO 过 程 中 不 会 被 阻 
塞 , 内 核 空间 的 I/O 软件 一 直 代表 用 户 进程 在 内 核 态 进行 /O 处 理 。 

若 采用 中 断 控制 IO 方式 , 则 设备 驱动 程序 将 采用 如 图 8. 21(a) 所 示 的 处 理 过 程 来 控 
制 外 设 的 I/O 操作。 驱动 程序 启动 第 一 次 LO 操作 后 ,将 调用 处 理 器 调度 程序 来 调 出 其 他 
进程 执行 ,而 用 户 进程 被 阻塞 。 在 CPU 执行 其 他 进程 的 同时 ,外 设 进行 I/O 操作 ,此 时 ， 
CPU 和 外 设 并 行 工 作 。 当 外 设 完成 I/O 任务 时 ,再 向 CPU 提出 中 断 请 求 ,CPU 检测 到 中 
断 请 求 后 ,会 暂停 正在 执行 的 其 他 进程 的 执行 , 转 到 如 图 8. 21(b) 所 示 的 一 个 中 断 服务 程序 
去 执行 ,以 启动 下 一 次 IO 操作。 

若 采用 DMA 方式 ,那么 ,驱动 程序 将 采用 如 图 8. 32 所 示 的 处 理 过 程 来 控制 外 设 的 
1/O 操作。 驱动 程序 对 DMA 控制 器 进行 初始 化 后 , 便 发 送 “ 启 动 DMA 传送 ”命令 ,使 设备 
控制 器 控制 外 设 开 始 进 行 I/O 操作 ,发 送 完 启动 命令 后 ,将 执行 处 理 器 调度 程序 ,使 CPU 
转 去 其 他 进程 执行 ,而 使 请 求 IO 的 用 户 进程 阻塞 。DMA 控制 器 完成 所 有 I/O 任务 后 ,向 
CPU 发 送 一 个 “DMA 完成 ”中 断 请 求 信号 。CPU 在 中 断 服务 程序 中 解除 用 户 进程 的 阻塞 
状态 ,然后 中 断 返 回 。 

中 断 控制 和 DMA 两 种 7O 方式 下 ,在 执行 设备 驱动 程序 过 程 中 ,都 会 进行 处 理 器 调 
度 ,以 使 请 求 7O 的 当前 用 户 进程 被 阻塞 ;也 都 会 产生 中 断 请 求 信 号 ,前 者 由 设备 在 每 完成 
一 个 数据 的 I/O 后 产生 中 断 请 求 , 后 者 由 DMA 控制 器 在 完成 整个 数据 块 的 1/O 后 产生 中 
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断 请 求 。 因 此 可 见 , 中 断 请 求 是 由 于 执行 了 设备 驱动 程序 而 产生 的 ,外 设 完成 驱动 程序 要 求 
的 I/O 操作 后 ,设备 控制 器 或 DMA 控制 器 会 向 CPU 发 出 中 断 请 求 ,从 而 调 出 中 断 服务 程 
序 执行 。 
8.8.3 ”中断 服务 程序 

图 8.37 给 出 了 整个 中 断 过 程 ,包括 两 个 阶段 : 中 断 响应 和 中 断 处 理 。 中 断 响应 是 通过 








CPU 执行 中 断 隐 指 令 来 完成 的 ,完全 由 硬件 完成; 而 中 断 ee 
处 理 就 是 CPU 执行 一 个 中 上 断 服务 程序 的 过 程 ,完全 由 软 i- 保证 
件 完成 。 虽 然 不 同 的 中 断 源 对 应 的 中 断 服务 程序 不 同 ,但 。 | 调 出 某 个 中 断 服 务 程序 
是 ,所 有 中 断 服务 程序 的 结构 是 相同 的 。 中 断 服务 程序 包 | 处 理 
含 3 个 阶段 : 准备 阶段 ,处 理 阶 段 和 恢复 阶段 。 保护 现场 和 旧 屏蔽 字 











图 8. 37 给 出 的 是 多 重 中 晰 系统 下 的 中 断 服务 程序 结 [RE | | 准 入 内 
构 。 从 图 中 可 以 看 出 ,在 保存 断 点 .保护 现场 和 旧 的 屏蔽 
字 、 设 置 新 屏蔽 字 的 过 程 中 ,CPU 一 直 处 于 * 中 断 禁止 天 
C* 关 中断”) 状态 。CPU 响应 中 断 的 第 一 件 事 就 是 关中 a 
断 , 即 由 CPU 直接 将 中 断 允 许 触 发 器 清 零 ,在 进行 具体 一 
的 中 上 断 服务 之 前 ,再 通过 执行 “ 开 中 上 断 "指令 来 使 中 断 允许 ET 
触发 器 过 1, 因 此 ,在 进行 具体 中 上 断 服务 过 程 中 ,车 有 新 的 一 
未 被 屏 项 的 中 断 请 求 出 现 , 则 CPU 可 以 响应 新 的 中 断 请 
求 。 同样, 在 恢复 阶段 也 要 让 CPU 关中 断 , 并 在 中 断 返 “清除 中 电 请 水 ] | 恢复 了 和 
回 前 开 中 断 ,这 里 开 中 断 和 关中 断 的 功能 都 是 通过 CPU i 
执行 相应 的 “ 开 中 断 " 和 “关中 断 ”指令 实现 的 。 如 果 在 准 1 
备 阶段 和 恢复 阶段 CPU 处 在 “ 开 中 上 断 "状态 ,那么 有 可 能 到 
在 断 点 保存 .现场 和 屏蔽 字 的 保护 和 恢复 等 过 程 中 响应 新 图 8.37 中 断 服务 程序 的 典型 结构 
中 断 ,这 样 , 断 点 或 现场 及 屏蔽 字 等 重要 信息 就 会 被 新 中 
断 破 坏 ,因而 不 能 回 到 原来 的 断 点 继续 执行 或 因为 现场 或 屏蔽 字 被 破坏 而 不 能 正确 执行。 

图 8. 38 中 的 “保护 现场 和 旧 屏蔽 字 ”“ 恢 复 现 场 和 旧 屏 项 字 ” 分 别 通 过 “ 压 模 " 和 “出 模 ” 
指令 来 实现 “设置 新 屏蔽 字 ” 和 "* 清 除 中 断 请 求 * 通 过 执行 /O 指令 来 实现 ,这 些 1/0 指令 
将 对 可 编程 中 断 控制 器 (PIC) 中 的 中 断 请 求 寄存 器 和 中 断 屏蔽 字 寄存 器 进行 访问 ,以 使 这 
些 寄存 器 中 相应 的 位 清 零 或 置 1 。 

在 设备 驱动 程序 和 中 断 服务 程序 中 使 用 到 的 1/O 指令“ 开 中 断 " 和 *“ 关 中 断 "指令 都 是 
特权 指令 ,只 能 在 操作 系统 内 核 程序 中 使 用 。 

例 8.6 在 IA-32/Linux 系统 中 ,假设 某 用 户 程序 P 中 有 以 下 一 段 C 代码 ， 




































































int len, nr buf [BUFSIZ]; 
FILE x fp; 


1 

2 

3 

4 fp=fopen("bin file.txt","r"); 

5 n=fread (buf, sizeof (int), BUFSIZ, fp); 
6 
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假设 文件 bin_file. txt 已 经 存在 磁盘 上 且 存 有 足够 多 的 数据 ,以 前 未 被 读 取 过 。 回 答 下 
列 问题 或 完成 下 列 任务 。 

(1) 执行 第 4 行 语 句 时 ,从 用 户 程序 的 执行 到 调 出 内 核 中 的 1/O 软件 执行 的 过 程 是 怎 
样 的 ? 要 求 画 出 函数 之 间 的 调用 关系 ,并 用 自然 语言 描述 执行 过 程 。 

(2) 执行 第 5 行 语 句 时 ,从 用 户 程序 的 执行 到 调 出 内 核 中 的 I/O 软件 执行 的 过 程 是 怎 
样 的 ? 要 求 画 出 函数 之 间 的 调用 关系 。 

(3) 执行 第 5 行 语句 时 ,通过 陷阱 指令 陷入 内 核 后 ,底层 的 内 核 IO 软件 的 大 致 处 理 过 
程 是 怎样 的 ? 

解 : (1) 执行 第 4 行 语句 时 ,从 用 户 程序 的 执行 到 调 出 内 核 中 的 I/O 软件 执行 的 过 程 
如 图 8. 38 所 示 。 


用 户 空间 、 运 行 在 用 户 态 内 核 空间 、 运 行 在 内 核 态 
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open 封 装 函 数 


图 8. 38 用 户 程序 调用 fopen() 函 数 到 内 核 1/O 软件 执行 的 过 程 


如 图 8. 38 所 示 , 当 执行 到 用 户 程 序 P 中 第 4 行 语句 时 ,将 转 和 人 C 标准 库 函 数 fopen() 
执行 ,fopen() 调 用 系统 调用 函数 open() ,而 open 系统 调用 对 应 的 指令 序列 中 有 一 条 陷阱 
指令 int $0x80, 当 执行 到 该 陷阱 指令 时 ,将 从 用 户 态 陷入 内 核 态 执行 ,在 内 核 态 首 先 执 行 
的 是 system_call 程序 ,该 程序 中 再 根据 系统 调用 号 转 到 对 应 的 open 系统 调用 服务 例 程 sys 
_open 执行 ,文件 打开 的 具体 工作 由 sys_open() 完 成 。 因 为 将 要 打开 的 文件 bin_file. txt 已 
经 存在 ,所 以 fopen() 函数 将 能 成 功 执行 。 

(2) 执行 第 5 行 语句 时 ,从 用 户 程序 P 的 执行 到 调 出 内 核 中 的 I/O 软件 执行 的 过 程 如 
图 8. 39 所 示 。 

(3) 因为 用 户 进 程 使 用 fread() 函数 读 取 的 是 一 个 普通 的 磁盘 文件 ,所 以 应 采用 DMA 
控制 I/O 方式 进行 磁盘 读 操作 。 通 过 系统 调用 陷入 内 核 后 ,底层 的 内 核 I/O 软件 的 大 致 处 
理 过 程 如 下 : 

Q@ 由 内 核 空间 中 与 设备 无 关 的 1/O 软件 完成 以 下 相关 操作 : 根据 文件 bin_file 的 文件 
描述 符 fd( 执 行 fopen() 函 数 后 得 到 一 个 指向 结构 FILE 的 指针 fp ,在 fp 所 指 结构 中 包含 了 
打开 文件 的 文件 描述 符 fd) ,找到 对 应 的 文件 描述 信息 ,根据 相应 的 文件 描述 信息 可 确定 相 
应 的 磁盘 设备 驱动 程序 ;根据 文件 当前 指针 确定 所 读数 据 在 抽象 的 块 设备 中 的 逻辑 块 号 ; 检 
查 用户 所 需 数据 是 否 在 高 速 缓存 RAM 中 ,以 判断 是 否 需 要 读 磁 盘 。 因 为 文件 bin_file 未 曾 
被 读 取 过 ,所 以 肯定 不 会 在 高 速 缓存 RAM 中 ,同时 也 不 会 在 用 户 缓冲 区 ,因而 需要 调用 相 
应 的 磁盘 驱动 程序 执行 读 磁 盘 操 作 。 
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用 户 空间 、 运 行 在 用 户 态 内 核 空间 、 运 行 在 内 核 态 
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read 封 装 函数 统 调用 处 理 程序 。 read 系 统 调用 
服务 例 程 


图 8.39 用 户 程序 调用 freadQ 〇 函数 到 内 核 /O 软件 执行 的 过 程 





fread 库 函数 





@ 在 磁盘 驱动 程序 中 ,将 会 完成 以 下 操作 : 检查 磁盘 驱动 器 的 电机 是 否 运转 正常 ,将 
逻辑 块 号 转换 为 磁盘 物理 地 址 ( 柱 面 号 、 磁 头号 、 扇 区 号 ) ,对 将 要 接受 磁盘 数据 的 主 存 空间 
进行 初始 化 ,对 DMA 控制 器 中 的 各 个 I/O 端口 进行 初始 化 ;然后 , 发送“ 启动 DMA 传送 ” 
命令 以 启动 具体 的 IO 操作 ;最 后 调用 处 理 器 调度 程序 以 挂 起 当前 用 户 进程 P, 并 使 CPU 
转 而 执行 其 他 用 户 进程 。 

@ 当 DMA 控制 器 完成 IO 操作 后 ,向 CPU 发 送 一 个 “DMA 完成 "中断 请 求 信 号 ， 
CPU 调 出 相应 的 中 断 服务 程序 执行 。CPU 在 中 断 服务 程序 中 ,解除 用 户 进程 P 的 阻塞 状 
态 而 使 其 进入 就 绪 队列 ,然后 中 断 返 回 , 再 回 到 被 打 断 的 进程 继续 执行 。 下 次 处 理 器 调度 时 
用 户 进程 P 有 可 能 会 被 调度 到 处 理 器 上 继续 执行 。 


8.9 本 章 小 结 


本 章 主 要 介绍 输入 输出 系统 的 组 成 、 外 部 设备 的 分 类 和 特点 、 常 用 输入 输出 设备 和 外 部 
存储 设备 的 工作 原理 .I/O 接口 的 职能 和 分 类 、1/O 设备 和 主机 的 连接 ,以 及 常用 的 几 种 输 
入 输出 方式 ,包括 程序 查询 方式 \ 程 序 中 断 方式 和 DMA 方式 等 内 容 。 

输入 设备 ,输出 设备 和 外 存储 器 统称 为 外 部 设备 ,简称 外 设 。 所 有 外 设 通 过 相应 的 电缆 
连 到 IO 接口 电路 上 ,1/O 接口 电路 再 连 到 系统 总 线 , 最 终 与 CPU 和 主 存 相连 。 

磁盘 存储 器 的 主要 技术 指标 包括 : 记录 密度 。 道 密度 指 单位 长 度 上 的 磁道 数 ;位 密 
度 为 磁道 中 单位 长 度 上 的 位 数 ; @ 平 均 存 取 时 间 。 它 是 平均 寻 道 时 间 和 平均 等 待 时 间 之 和 
(数据 传输 时 间 相 对 较 小 ,可 忽略 不 计 ); @ 数 据 传 输 率 。 分 为 内 部 数据 传输 率 和 外 部 数据 
传输 率 。 内 部 数据 传输 率 与 磁盘 转速 有 关 , 指 寻 道 和 旋转 等 待 后 ,单位 时 间 内 从 存储 介质 上 
读 出 或 写 人 的 二 进 制 信息 量 。 外 部 数据 传输 率 与 磁盘 转速 无 关 , 指 磁盘 接口 (磁盘 控制 器 ) 
和 磁盘 缓存 之 间 进 行 数据 交换 的 数据 传输 率 。 

元 余 磁 盘 阵 列 RAID 技术 的 目的 是 增 大 容量 ,提高 速度 ,并 增强 可 靠 性 。 小 条 带 方式 
RAID 的 数据 传输 率 高 ,但 IO 响应 速度 慢 ,适合 应 用 于 流 媒体 播放 系统 等 ;大 条 区 方式 
RAID 则 相反 ,适合 应 用 于 银行 证 券 等 事务 处 理 系统 等 。 

1/O 接口 指 各 类 外 设 控制 器 (包括 适配器 或 适 配 卡 ) 或 DMA 控制 器 .中 断 控制 器 等 ,也 
称 为 7O 控制 器 或 IO 模块 ,其 职能 包括 数据 缓冲 .记录 状态 、 传 递 命令 .数据 格式 转换 等 。 
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通常 IO 接口 中 包含 数据 缓冲 寄存 器 (数据 端口 )、 状 态 寄 存 器 (状态 端口 ) 和 控制 寄存 器 
(控制 端口 或 命令 端口 ) ,它们 统称 为 I/O 端口 。1/O 端口 的 编 址 方式 有 两 种 : 独立 编 址 和 
统一 编 址 (存储 器 映射 )。 独 立 编 址 方式 下 ,对 1/O 端口 单独 编号 ,使 它们 成 为 一 个 独立 的 
I/O 地 址 空间 ;统一 编 址 方式 下 ,I/O 端口 与 主 存单 元 统一 编号 。 可 以 通过 1/O 指令 访问 
W/O 端口 。 

常用 I/O 控制 方式 有 3 种 : 程序 直接 控制 方式 .中 断 控制 方式 和 DMA 方式 。 程序 直 
接 控 制 方式 分 无 条 件 传送 和 条 件 传 送 两 种 。 无 条 件 传 送 方式 下 ,利用 程序 定时 来 传送 数据 ， 
无 须 检 测 接口 或 设备 的 状态 ,适合 于 各 类 巡回 检测 或 过 程控 制 ; 条 件 传送 (程序 查询 ) 方 式 
下 ,CPU 通过 查询 外 设 接口 中 的 “就 绪 ”(Ready)、“ 忙 ”(Busy) 和 “完成 ”(Done) 等 状态 来 控 
制 数据 的 传送 ,有 定时 查询 和 独占 查询 两 种 。 程 序 中 断 1/O 方式 下 , 当 外 设 准 备 好 数据 或 
准备 好 接收 新 数据 或 发 生 了 特殊 事件 时 ,外 设 通过 向 CPU 发 中 断 请 求 来 使 CPU 转 到 相应 
的 中 断 服 务 程序 去 执行 ,在 中 断 服 务 程序 中 完成 数据 交换 或 处 理 特 殊 事件 。DMA 方式 适 
合 像 磁盘 一 类 的 高 速 设备 以 成 批 方式 和 主 存 直接 交换 数据 。 首 先 要 对 DMA 控制 器 进行 初 
始 化 ;然后 由 DMA 控制 器 控制 总 线 在 主 存 和 高 速 设备 之 间 进 行 直接 数据 交换 ;最 后 ,DMA 
控制 嚣 发 出 “DMA 传送 结束 ”信和 号 给 外 设 接口 ,由 外 设 接口 发 中 断 请 求 给 CPU ,CPU 进行 
DMA 结束 处 理 。 

1/O 子 系统 包含 I/O 软件 和 IVO 硬件 两 大 部 分 。I/O 软件 包括 最 上 层 提出 I/O 请 求 的 
用 户 空间 W/O 软件 ( 称 为 用 户 I/O 软件 ) 和 在 底层 操作 系统 中 对 I/O 进行 具体 管理 和 控制 
的 内 核 空间 I/O 软件 ( 称 为 系统 I/O 软件 ) ,系统 I/O 软件 又 分 3 个 层次 ,分 别 是 与 设备 无 
关 的 I/O 软件 层 、 设 备 驱动 程序 层 和 中 断 服务 程序 层 。I/O 硬件 在 操作 系统 内 核 空间 1/O 
软件 的 控制 下 完成 具体 的 1/O 操作 。 


习 题 

1. 给 出 以 下 概念 的 解释 说 明 。 
I/O 带宽 响应 时 间 编码 键盘 非 编码 键盘 
键盘 扫描 码 终端 磁道 柱 面 
扇 区 道 密度 位 密度 平均 存 取 时 间 
寻 道 时 间 旋转 等 待 (查找 ) 时 间 ”传输 时 间 数据 传输 率 
磁盘 控制 器 宛 余 磁 盘 阵列 (RAID) 1/O 接口 I/O 控制 器 
I/O 端口 命令 (控制 ) 端 口 数据 端口 状态 端口 
I/O 空间 独立 编 址 统一 编 址 存储 器 映射 VO 口 
I/O 指令 程序 查询 IO 就 绪 状 态 程序 中 断 MO 
可 屏蔽 中 断 不 可 屏蔽 中 断 屏蔽 字 中 断 响应 优先 级 
中 断 处 理 优先 级 DMA 方式 周期 挪用 DMA 控制 器 


2. 简单 回答 下 列 问 题 。 

(1) 什么 是 W/O 接口 ? W/O 接口 的 基本 功能 有 哪些 ? 按 数据 传送 方式 分 有 哪 两 种 接口 类 型 ? 
(2) 串 行 接口 和 并 行 接口 的 特点 各 是 什么 ? 

(3) CPU 如 何 进行 设备 的 寻 址 ? IO 端口 的 编 址 方式 有 哪 两 种 ? 各 有 何 特点 ? 

(4) 什么 是 程序 查询 I/O 方式 ? 说明 其 工作 原理 。 
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(5) 什么 是 中 断 IO 方式 ? 说 明 其 工作 原理 。 

(6) 什么 叫 向 量 中 断 ? 说 明 在 向 量 中 断 方式 下 形成 中 断 向 量 的 基本 方法 。 

(7) 对 于 向 量 中 断 , 为 什么 MO 模块 把 中 断 请 求 设备 标识 放 在 总 线 的 数据 线 上 而 不 是 放 在 地 址 线 上 ? 

(8) 在 多 周期 处 理 器 中 并 不 是 每 个 时 钟 周期 后 都 允许 响应 中 断 。 为 什么 ? 如 果 在 一 条 指令 执行 过 程 
中 ,CPU 为 了 响应 中 断 而 停止 操作 ,会 产生 什么 问题 ? 

(9) 什么 是 可 屏蔽 中 断 ? 什么 是 非 屏蔽 中 断 ? 

(10) 为 什么 在 保护 现场 和 恢复 现场 的 过 程 中 ,CPU 必须 关中 断 ? 

(11) DMA 方 式 能 够 提高 成 批 数据 交换 效率 的 主要 原因 何在 ? 

(12) CPU 响应 DMA 请 求 和 响应 中 断 请 求 有 什么 区 别 ? 为 什么 通常 使 DMA 请 求 具有 高 于 中 断 请 求 
的 优先 权 ? 

(13) 在 DMA 接口 中 ,什么 时 候 给 出 “DMA 请 求 ”( 或 “总 线 请 求 ”) 信 号 ?什么 时 候 给 出 “中 断 请 求 ” 信 
号 ? CPU 在 什么 时 候 响 应 DMA 请 求 ? 在 什么 时 候 响应 中 断 请 求 ? 

3. 假定 一 个 政府 机 构 同 时 监控 100 路 移动 电话 的 通话 消息 ,通话 消息 被 分 时 复 用 到 一 个 带宽 为 
4MBps 的 网 络 上 , 复 用 使 得 每 传送 1KB 的 通话 消息 需 额外 开销 150ps, 若 通话 消息 的 采样 频率 为 4kHz, 每 
个 样本 的 量化 值 占 16 位 ,要 求 计 算 每 个 通话 消息 的 传输 时 间 ,并 判断 该 网 络 带宽 能 否 支持 同时 监控 100 
路 通话 消息 ? 

4. 假定 一 个 程序 重复 完成 将 磁盘 上 一 个 4KB 的 数据 块 读 出 ,进行 相应 处 理 后 , 写 回 到 磁盘 的 另外 一 
个 数据 区 。 各 数据 块 内 信息 在 磁盘 上 连续 存放 ,并 随机 地 位 于 磁盘 的 一 个 磁道 上 。 磁 盘 转速 为 7200rpm， 
平均 寻 道 时 间 为 10ms, 磁 盘 最 大 数据 传输 率 为 40MBps ,磁盘 控制 器 的 开销 为 2ms, 没 有 其 他 程序 使 用 磁 
盘 和 处 理 器 ,并 且 磁 盘 读 写 操作 和 磁盘 数据 的 处 理 时 间 不 重 笃 。 若 程序 对 磁盘 数据 的 处 理 需 要 20 000 个 
时 钟 周期 ,处理 器 时 钟 频率 为 500MHz, 则 该 程序 完成 一 次 数据 块 “ 读 出 -处 理 - 写 回 ”操作 所 需 的 时 间 为 多 
少 ? 每 秒 钟 可 以 完成 多 少 次 这 样 的 数据 块 操作 ? 

5. 假定 主 存 和 磁盘 存储 器 之 间 连 接 的 同步 总 线 具 有 以 下 特性 : 支持 4 字 块 和 16 字 块 两 种 长 度 ( 字 长 
32 位 ) 的 突 发 传送 ,总 线 时 钟 频率 为 200MHz, 总 线 宽 度 为 64 位 ,每 个 64 位 数据 的 传送 需 1 个 时 钟 周期 ， 
向 主 存 发 送 一 个 地 址 需要 1 个 时 钟 周期 ,每 个 总 线 事务 之 间 有 2 个 空闲 时 钟 周期 。 若 访问 主 存 时 最 初 4 个 
字 的 存 取 时 间 为 200ns, 随 后 每 存 取 一 个 4 字 的 时 间 是 20ns, 磁 盘 的 数据 传输 率 为 5MBps, 则 在 4 字 块 和 
16 字 块 两 种 传输 方式 下 ,该 总 线 上 分 别 最 多 可 有 多 少 个 磁盘 同时 进行 传输 ? 

6. 假定 有 两 个 用 来 存储 10TB 数据 的 RAID 系统 。 系 统 A 使 用 RAID 1 技术 ,系统 B 使 用 RAID 5 技术 。 

(1) 系统 A 需要 比 系统 B 多 用 多 少 存储 量 ? 

(2) 假定 一 个 应 用 需要 向 磁盘 写 人 一 块 数据 , 若 磁盘 读 或 写 一 块 数据 的 时 间 为 30ms, 则 最 坏 情况 下 ， 
在 系统 A 和 系统 B 上 写 人 一 块 数据 分 别 需 要 多 长 时 间 ? 

(3) 哪个 系统 更 可 靠 ? 为 什么 ? 

7. 假定 在 一 个 使 用 RAID 5 的 系统 中 ,采用 先 更 新 数据 块 .再 更 新 校 验 块 的 信息 更 新 方式 。 如 果 在 更 
新 数据 块 和 更 新 校 验 块 的 操作 之 间 发 生 了 掉 电 现 象 ,那么 会 出 现 什 么 问题 ? 采用 什么 样 的 信息 更 新 方式 
可 避免 这 个 问题 ? 

8. 某 终端 通过 RS-232 串 行 通信 接口 与 主机 相连 ,采用 起 止 式 异 步 通信 方式 , 若 传输 速率 为 
1200baud, 采 用 两 相 调制 技术 。 通 信 协 议 为 8 位 数据 ,无 校 验 位 ,停止 位 为 1 位 。 则 传送 一 个 字 节 所 需 时 间 
约 为 多 少 ? 若 传输 速度 为 2400baud, 停 止 位 为 2 位 ,其 他 不 变 , 则 传输 一 个 字 节 的 时 间 为 多 少 ? 

9. 假定 采用 独立 编 址 方式 对 I/O 端口 进行 编号 ,那么 ,必须 为 处 理 器 设计 哪些 指令 来 专门 用 于 进行 
I/O 端口 的 访问 ?连接 处 理 器 的 总 线 必须 提供 哪些 控制 信号 来 表明 访问 的 是 IO 空间 ? 

10. 假设 有 一 个 磁盘 ,每 面 有 200 个 磁道 ,盘面 总 存储 容量 为 1. 6MB, 磁 盘旋 转 一 周 时 间 为 25ms, 每 道 
有 4 个 区 ,每 两 个 区 之 间 有 一 个 间隙 ,磁头 通过 每 个 间隙 需 1. 25ms。 问 : 从 该 磁盘 上 读 取 数据 时 的 最 大 数 
据 传输 率 是 多 少 ( 单 位 为 字 节 / 秒 )? 假如 有 人 为 该 磁盘 设计 了 一 个 与 计算 机 之 间 的 接口 ,如 下 图 所 示 , 磁 
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盘 每 读 出 一 位 , 串 行 送 和 一 个 移 位 寄存 器 ,每 当 移 满 16 位 后 向 处 理 器 发 出 一 个 请 求 交换 数据 的 信号 。 在 
处 理 器 响应 该 请 求 信号 并 读 取 移 位 寄存 器 内 容 的 同时 ,磁盘 继续 读 出 一 位 一 位 数据 并 串 行 送信 移 位 寄存 
器 ,如 此 继续 工作 。 已 知 处 理 器 在 接 到 请 求 交换 的 信号 以 后 ,最 长 响应 时 间 是 3ws, 这 样 设计 的 接口 能 否 正 
确 工 作 ? 若 不 能 , 则 应 如 何 改进 ? 


区 4 区 1 
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11. 假设 某 计算 机 带 有 20 个 终端 同时 工作 ,在 运行 用 户 程序 的 同时 ,能 接收 来 自任 意 一 个 终端 输入 的 
字符 信息 ,并 将 字符 回 送 显示 (或 打印 ) 。 每 一 个 终端 的 键盘 输入 部 分 有 一 个 数码 缓冲 寄存 器 RDBR; (i 二 
1 一 20) , 当 在 键盘 上 按 下 某 一 个 键 时 ,相应 的 字符 代码 即 进入 RDBR; ,并 使 它 的 “完成 ?状态 标志 Done; (i 二 
1 一 20) 置 1, 要 等 处 理 器 把 该 字符 代码 取 走 后 , Done; 标志 才 置 0。 每 个 终端 显示 (或 打印 ?输出 部 分 也 有 一 
个 数码 缓冲 寄存 器 TDBR,(i 一 1 一 20) ,并 有 一 个 Ready;(i 一 1 一 20) 状 态 标志 ,该 状态 标志 为 1 时 ,表示 相应 
的 TDBR, 是 空 着 的 ,准备 接收 新 的 输出 字符 代码 , 当 TDBR; 接收 了 一 个 字符 代码 后 ， Ready; 标志 才 置 0， 
并 将 字符 代码 送 到 终端 显示 (或 打印 ) ,为 了 接收 终端 的 输入 信息 ,处 理 器 为 每 个 终端 设计 了 一 个 指针 
PTR, (一 1 一 20) 指 向 为 该 终端 保留 的 主 存 输入 缓冲 区 。 处 理 器 采用 下 列 两 种 方案 输入 键盘 代码 ,同时 回 
送 显 示 ( 或 打印 ) 。 

(1) 每 隔 一 个 固定 时 间 工 转 和 人 一 个 状态 检查 程序 DEVCHC, 顺 序 地 检查 全 部 终端 是 否 有 任何 键盘 信 
息 要 输入 ,如 果 有 , 则 顺序 完成 之 。 

(2) 允许 任何 有 键盘 信息 输入 的 终端 向 处 理 器 发 出 中 断 请 求 。 全 部 终端 采用 共同 的 向 量 地 址 ,利用 它 
使 处 理 器 在 响应 中 断后 , 转 入 一 个 中 断 服务 程序 DEVINT, 由 后 者 询问 各 终端 状态 标志 ,并 为 最 先 遇 到 的 
请 求 中 断 的 终端 服务 ,然后 转向 用 户 程序 。 

要 求 画 出 DEVCHC 和 DEVINT 两 个 程序 的 流程 图 。 

12. 假定 某 计 算 机 的 CPU 主 频 为 500MHz, 所 连接 的 某 个 外 设 的 最 大 数据 传输 率 为 20kBps, 该 外 设 接 
口中 有 一 个 16 位 的 数据 缓存 器 ,相应 的 中 断 服 务 程序 的 执行 时 间 为 500 个 时 钟 周期 , 则 是 否 可 以 用 中 断 
方式 进行 该 外 设 的 输入 输出 ”假定 该 外 设 的 最 大 数据 传输 率 改 为 2MBps, 则 是 否 可 以 用 中 断 方式 进行 该 
外 设 的 输入 输出 ? 

13. 若 某 计算 机 有 5 个 中 断 源 ,分 别 记 为 1.2、3、4、5。 中 断 响应 优先 级 为 1 >>2 二 3 二 4 二 5, 而 中 断 处 理 优 
先 级 为 1 这 4>>5 之 2 之 3。 要 求 : 

(1) 设计 各 种 中 断 处 理 程序 的 中 断 屏 项 位 (假设 1 为 屏蔽 ,0 为 开放 ) 。 

(2) 若 在 运行 主 程序 时 ,同时 出 现 第 2.4 号 中 断 请 求 ,而 在 处 理 第 2 号 中 断 的 过 程 中 ,又 同时 出 现 1、3、 
5 号 中 断 请求 , 试 画 出 此 程序 运行 过 程 示意 图 。 

14. 假定 某 计 算 机 字 长 16 位 ,没有 cache, 运 算 器 一 次 定点 加 法 时 间 等 于 100ns ,配置 的 磁盘 旋转 速度 
为 每 分 钟 3000 转 ,每 个 磁道 上 记录 两 个 数据 块 ,每 一 块 有 8000 个 字 节 ,两 个 数据 块 之 间 间 隙 的 越过 时 间 
为 2ms, 主 存 周期 为 500ns, 存 储 器 总 线 宽度 为 16 位 ,总 线 带宽 为 4MBps。 

(1) 磁盘 读 写 数据 时 的 最 大 数据 传输 率 是 多 少 ? 

(2) 当 磁 盘 按 最 大 数据 传输 率 与 主机 交换 数据 时 , 主 存 周 期 空闲 百分比 是 多 少 ? 

(3) 直接 寻 址 的 “存储 器 -存储 器 ”SS 型 加 法 指令 在 无 磁盘 1/O 操作 打扰 时 的 执行 时 间 为 多 少 ? 当 磁 
盘 1/O 操 作 与 一 连 串 这 种 SS 型 加 法 指令 执行 同时 进行 时 , 则 这 种 SS 型 加 法 指令 的 最 快 和 最 慢 执行 时 间 
各 是 多 少 ? (假定 采用 多 周期 处 理 器 方式 ,CPU 时 钟 周期 等 于 主 存 周期 。) 
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15. 假定 某 计算 机 所 有 指令 都 可 用 两 个 总 线 周 期 完成 ,一 个 总 线 周期 用 来 取 指令 , 另 一 个 总 线 周期 用 
来 存 取 数 据 。 总 线 周 期 为 250ns, 因 而 ,每 条 指令 的 执行 时 间 为 500ns。 若 该 计算 机 中 配置 的 磁盘 上 每 个 磁 
道 有 16 个 512 字 节 的 扇 区 ,磁盘 旋转 一 圈 的 时 间 是 8. 192ms, 则 采用 周期 挪用 法 进行 DMA 传送 时 ,总线 
宽度 为 8 位 和 16 位 的 情况 下 该 计算 机 指令 执行 速度 分 别 降 低 了 百 分 之 几 ? 

16. 假设 一 个 主 频 为 1GHz 的 处 理 器 需要 从 某 个 成 块 传送 的 VO 设备 读 取 1000 字 节 的 数据 到 主 存 组 
冲 区 中 ,该 IO 设备 一 旦 启动 即 按 50kBps 的 数据 传输 率 向 主机 传送 1000 字 节 数据 ,每 个 字 节 的 读 取 、 处 
理 并 存 人 内 存 缓 冲 区 需要 1000 个 时 钟 周期 , 则 以 下 几 种 方式 下 ,在 1000 字 节 的 读 取 过 程 中 ,CPU 花 在 该 
设备 的 I/O 操作 上 的 时 间 分 别 为 多 少 ? 占 整 个 处 理 器 时 间 的 百分比 分 别 是 多 少 ? 

(1) 采用 定时 查询 方式 ,每 次 处 理 一 个 字 节 ,一 次 状态 查询 至 少 需要 60 个 时 钟 周期 。 

(2) 采用 独占 查询 方式 ,每 次 处 理 一 个 字 节 ,一 次 状态 查询 至 少 需要 60 个 时 钟 周期 。 

(3) 采用 中 断 IO 方式 ,外 设 每 准备 好 一 个 字 节 发 送 一 次 中 断 请 求 。 每 次 中 断 响应 需要 2 个 时 钟 周 
期 ,中 断 服务 程序 的 执行 需要 1200 个 时 钟 周期 。 

(4) 采用 周期 挪用 DMA 方式 ,每 挪用 一 次 主 存 周 期 处 理 一 个 字 节 ,一 次 DMA 传送 完成 1000 字 节 数 
据 的 IO,DMA 初始 化 和 后 处 理 的 时 间 为 2000 个 时 钟 周期 ,CPU 和 DMA 没有 访 存 冲 突 。 

(5) 如 果 设 备 的 速度 提高 到 5MBps, 则 上 述 4 种 方式 中 ,哪些 是 不 可 行 的 ? 为 什么 ? 对 于 可 行 的 方式 ， 
计算 出 CPU 花 在 该 设备 I/O 操作 上 的 时 间 占 整个 处 理 器 时 间 的 百分比 。 

(6) 如 果 外 设 不 是 成 块 传送 设备 ,而 是 字符 型 设备 ,CPU 每 处 理 完 一 个 字 节 后 都 要 重新 启动 外 设 , 外 
设 在 启动 后 0. 02ms 时 准备 好 一 个 字 节 。 每 个 字 节 的 读 取 、 处 理 (包括 启动 下 次 操作 ) 并 存 人 内 存 缓 冲 区 还 
是 1000 个 时 钟 周期 ,假定 CPU 总 是 在 查询 到 就 绪 后 立即 启动 外 设 或 在 中 断 服务 程序 的 最 开始 立即 启动 
外 设 , 则 在 (1) 一 (3) 三 种 方式 下 ,CPU 花 在 该 设备 的 1/O 操作 上 的 时 间 占 整个 处 理 器 时 间 的 百分比 分 别 是 
多 少 ? 

17. 假定 采用 中 断 控制 WO 方 式 , 则 以 下 各 项 工作 是 在 4 个 1/O 软件 层 的 哪 一 层 完成 的 ? 

(1) 根据 逻辑 块 号 计算 磁盘 物理 地 址 ( 柱 面 号 、 磁 头号 、 扇 区 号 ) 。 

(2) 检查 用 户 是 否 有 权 读 写 文件 。 

(3) 将 二 进 制 整数 转换 为 ASCII 码 以 便 打印 输出 。 

(4) CPU 向 设备 控制 器 写 人 控制 命令 (如 “启动 工作 ”命令 )。 

(5) CPU 从 设备 控制 器 的 数据 端口 读 取 数据 。 








A 
并 行 处 理 系统 


随 着 信息 技术 的 飞速 发 展 ,人 们 对 计算 机 系统 处 理 能 力 的 要 求 越 来 越 高 。 气 象 .生物 、 
医药 、 地 质 、 天 文 等 领域 的 高 性 能 计算 ,互联 网 以 及 移动 通信 应 用 领域 的 海量 “大 数据 ”处 理 ， 
银行 、 保 险 \ 证 券 等 大 型 数据 库 系统 开发 ,游戏 ,航空 模拟 等 各 种 媒体 处 理 软件 方面 的 开发 ， 
都 需要 计算 机 系统 具有 极其 快速 的 处 理 能 力 。 采 用 传统 的 单 处 理 器 系统 中 的 串 行 计算 方 
式 , 远 远 不 能 满足 现代 社会 实际 应 用 问题 对 计算 能 力 的 需求 。 

为 了 追求 更 高 的 计算 性 能 ,出 现 了 各 种 不 同 的 并 行 处 理 系 统 。 通 过 采用 多 个 功能 部 件 
或 多 个 处 理 核 或 多 个 CPU 或 多 台 计算 机 的 互 连 , 使 得 一 个 系统 中 可 同时 进行 多 条 指令 或 
多 个 数据 或 多 个 线程 或 多 个 任务 的 处 理 , 从 而 实现 计算 速度 和 计算 能 力 的 大 幅 提升 。 本 章 
主要 介绍 几 类 典型 并 行 处 理 计 算 系 统 的 基本 硬件 结构 ,并 简要 介绍 几 种 并 行 处 理 编程 模型 。 


9.1 并 行 处 理 系统 概述 


为 了 获得 更 高 的 计算 速度 ,通常 采用 大 规模 并 行 处 理 技术 。 采 用 这 种 技术 的 计算 系统 ， 
相 比 于 单 处 理 器 计算 系统 ,是 非常 复杂 的 。 它 涉及 互 连 、 数 据 一 致 性 .同步 控 制 、 计 算 任务 划 
分 、 并 行程 序 设 计 和 容错 等 很 多 问题 。 


9.1.1 并 行 处 理 的 主要 技术 问题 


根据 所 采用 的 硬件 体系 结构 的 不 同 ,每 种 并 行 处 理 计算 系统 所 涉及 的 主要 技术 问题 有 
所 不 同 ,但 概括 起 来 ,主要 包括 以 下 几 个 方面 。 

1. 互 连 

并 行 处 理 最 主要 的 特点 就 是 将 多 个 计算 模块 和 多 个 存储 模块 进行 互 连 , 通 过 控制 这 些 
模块 的 并 行 工 作 来 提高 处 理 速度 。 因 此 ,如 何 实现 这 些 模块 的 互 连 是 非常 重要 的 问题 。 互 
连 技术 包括 芯片 内 模块 互 连 .芯片 间 模块 互 连 和 节点 间 机 -机 互 连 等 。 典 型 的 互 连 结 构 包 括 
共享 总 线 连接 交叉 开关 抢 阵 .交换 网 络 、 环 形 结构 . 星 形 结构 、. 网 格 (mesh) .立方 体 (cube) 
和 超 立 方 体 (hypercube) 等 。 

2. 数据 一 致 性 

在 并 行 处 理 系统 中 ,为 了 加 快 数据 处 理 的 速度 ,通常 利用 程序 访问 的 局 部 性 特性 ,在 不 
同 的 计算 模块 中 设置 高 速 缓存 ,而 且 , 这 些 不 同 的 计算 模块 还 可 能 设置 共享 的 高 速 缓 存 和 共 


计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





享 的 主 存储 器 ,因此 ,在 并 行 处 理 系统 中 存在 复杂 的 数据 一 致 性 问题 。 

3. 同步 控制 

在 并 行 处 理 系统 中 ,或 者 多 个 计算 模块 共享 一 个 存储 模块 ,或 者 每 个 计算 模块 拥有 自己 
的 存储 模块 。 前 者 为 共享 存储 器 结构 ,后 者 为 分 布 式 存储 器 结构 。 在 共享 存储 器 结构 系统 
中 ,由 于 多 个 计算 模块 可 能 同时 访问 同一 块 数据 ,因而 需要 解决 数据 的 互 斥 访问 等 同步 控制 
问题 。 在 分 布 式 存储 器 结构 系统 中 ,一 个 计算 任务 可 能 分 解 为 若干 子 任务 ,被 分 配 到 多 个 计 
算 模 块 完 成 ,而 每 个 计算 模块 的 速度 和 每 个 子 任务 计算 量 可 能 不 同 , 从 而 导致 子 任务 的 完成 
时 间 上 有 先 有 后 ,因此 ,需要 对 各 个 计算 模块 进行 同步 控制 。 

4. 任务 划分 

引入 并 行 处 理 系统 的 目的 ,就 是 把 一 个 大 的 计算 任务 分 解 成 小 的 子 任务 ,使 若干 个 子 任 
务 在 系统 中 并 行 执行 ,从 而 加 快 处 理 速度 。 因 此 ,如 何 对 任务 进行 合理 划分 是 并 行 处 理 中 的 
一 个 重要 问题 。 通 常 ,从 算法 分 解 和 数据 划分 两 个 方面 来 考虑 。 

5. 并 行程 序 设计 

计算 机 完成 的 所 有 任务 都 必须 编写 成 程序 才能 交 给 计算 机 执行 ,为 了 充分 利用 并 行 处 
理 计算 系统 中 的 计算 资源 和 存储 资源 ,需要 对 系统 中 运行 的 程序 进行 并 行 化 处 理 的 描述 ,以 
说 明 哪 些 处 理 逻 辑 段 可 以 并 行 执行 ,哪些 处 理 逻 辑 段 之 间 有 先后 顺序 关系 ,以 及 处 理 的 数据 
可 以 怎样 划分 等 。 

不 同 硬件 体系 结构 的 并 行 处 理 系统 ,所 采用 的 并 行程 序 设计 方法 不 一 样 。 目 前 主要 包 
括 共享 内 存 式 ( 多 线程 并 行 ) 、 消 息 传递 式 以 及 MapReduce 等 并 行 处 理 模 式 , 所 采用 的 并 行 
程序 设计 方式 包括 : 在 编程 语言 中 增加 编译 指导 指令 (如 OpenMP 提供 了 C、C++ 、Fortran 
语言 中 的 编译 指导 语句 或 命令 ,用 以 指示 哪个 程序 段 可 以 并 行 执行 ) ,提供 并 行 计算 库 函 数 
和 编程 接口 (如 Pthread、MPI 和 CUDA 等 ), 以 及 提供 自动 化 处 理 能 力 的 并 行 计算 软件 框 
架 ( 如 Hodoop MapReduce 并 行 编程 框架 等 )。 

6. 资源 调度 和 管理 

不 管 采用 哪 种 并 行 处 理 模 式 和 哪 种 并 行程 序 设计 方式 ,最 终 都 要 将 反映 处 理 逻 辑 的 机 
器 代码 调度 到 不 同 的 计算 模块 中 执行 ,将 处 理 逻 辑 所 操作 的 数据 部 署 到 存储 模块 中 ,这 就 涉 
及 并 行 处 理 系 统 中 计算 资源 的 调度 和 存储 资源 的 管理 问题 ,这 将 比 在 串 行 处 理 系统 中 复杂 
得 多 。 

7. 容错 性 和 安全 性 

大 规模 并 行 处 理 系统 依靠 大 量 的 计算 节点 互 连 而 成 ,可 能 经 常 发 生 节点 出 错 或 失效 , 因 
此 ,需要 预防 由 于 单个 节点 失效 可 能 带 来 的 数据 丢失 ,程序 出 错 或 系统 骨 演 等 问题 。 这 就 要 
求 系统 必须 考虑 良好 的 可 靠 性 设计 、 失 效 检测 和 恢复 机 制 。 

8. 性 能 分 析 与 评估 

并 行 处 理性 能 通常 用 加 速 比 来 度量 ,加速 比 可 以 是 一 个 作业 在 串 行 系统 中 的 执行 时 间 
与 并 行 处 理 计 算 系 统 中 的 执行 时 间 的 比值 ,也 可 以 是 并 行 处 理 系统 的 作业 吞吐 量 与 串 行 系 
统 的 作业 吞吐 量 的 比值 。 当 然 ,评价 一 个 并 行 处 理 系 统 的 好 坏 应 该 有 很 多 指标 ,包括 可 用 
性 ,可 扩展 性 、 负 载 均衡 .可靠 性 等 。 

由 于 并 行 处 理 系统 在 硬件 架构 .软件 架构 以 及 所 处 理 的 应 用 问题 等 各 方面 的 多 样 性 和 
复杂 性 ,使 得 并 行 处 理 各 个 技术 问题 的 解决 都 面临 着 很 大 的 挑战 。 
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9.1.2 并 行 处 理 系 统 的 分 类 


并 行 处 理 系 统 面临 各 种 技术 问题 的 挑战 ,为 此 ,人 们 提出 了 各 种 并 行 处 理解 决 方案 , 针 
对 这 些 解决 方案 ,又 有 不 同 的 并 行 处 理 技术 分 类 ,包括 按 指令 和 数据 的 处 理 方式 划分 、 按 地 
址 空间 访问 方式 划分 . 按 存储 访问 时 间 是 否 一 致 划分 、 按 处 理 单元 的 位 置 及 其 互 连 方式 划分 
等 不 同 的 分 类 。 

1. Flynn 分 类 

1966 年 ,斯坦福 大 学 的 Michael J. Flynn 教授 提出 了 按照 指令 和 数据 的 处 理 方式 进行 
划分 的 Flynn 分 类 法 ,将 计算 机 体系 结构 分 成 以 下 4 种 。 

1) 单 指令 流 单数 据 流 (SISD) 结 构 

SISD(Single Instruction stream and Single Data stream) 是 传统 的 串 行 计算 机 处 理 方 
式 , 这 种 计算 机 通常 仅 包含 一 个 处 理 器 和 一 个 存储 器 ,处 理 器 在 一 段 时 间 内 仅 执行 一 条 指令 
流 , 按 指令 流 规 定 的 顺序 串 行 完成 指令 流 中 若干 条 指令 的 执行 ,并 且 每 条 指令 最 多 仅 对 两 个 
数据 ( 双 目 运算 ) 或 一 个 数据 ( 单 目 运 算 ) 进 行 处 理 。 为 了 提高 程序 执行 速度 ,有 些 SISD 计 
算 机 采用 各 种 指令 流水 线 或 运算 操作 流水 线 方式 执行 指令 ,因此 ,SISD 计算 机 的 处 理 器 中 
有 时 会 设置 多 个 功能 部 件 , 而 且 采 用 多 模块 交叉 方式 组 织 存储 器 。 本 书 前 8 章 介绍 的 内 容 
多 属于 SISD 计算 机 结构 。 

2) 单 指令 流 多 数据 流 (SIMD) 结 构 

SIMD(Single Instruction stream and Multiple Data stream) 指 一 个 指令 流 同 时 对 多 个 
数据 流 进行 处 理 ,这 种 结构 的 计算 机 通常 由 一 个 指令 控制 部 件 、 多 个 处 理 单元 和 多 个 存储 器 
组 成 。 各 处 理 单元 和 各 存储 器 之 间 通 过 系统 内 部 的 互连网 络 进行 通信 。 在 程序 执行 过 程 
中 ,指令 控制 部 件 执行 的 还 是 一 个 串 行 的 指令 流 , 所 有 处 于 执行 状态 的 处 理 单元 同时 执行 相 
同 的 指令 ,所 需 的 数据 从 连接 在 各 个 处 理 单元 上 专用 的 局 部 存储 器 中 取得 ,因此 ,不 同 处 理 
单元 执行 的 同一 条 指令 所 处 理 的 数据 是 不 同 的 。 

随 着 计算 机 应 用 技术 的 不 断 发 展 ,在 20 世纪 90 年 代 初 ,出 现 了 多 媒体 应 用 技术 ,图 形 、 
图 像 .视频 和 音频 处 理 存在 大 量具 有 共同 特征 的 操作 ,因而 Intel 公司 于 1997 年 在 多 能 奔腾 
处 理 器 中 推出 了 MMX(Multi Media eXtension ,多 媒体 扩展 ) 指 令 集 , 它 是 Intel 公司 产品 中 
最 早 采用 的 SIMD 技术 。 随 着 网 络 .通信 语音、 图 形 、 图 像 .动画 和 音 / 视 频 等 多 媒体 处 理 软 
件 对 处 理 器 性 能 越 来 越 高 的 要 求 ，Intel 在 多 能 奔腾 以 后 的 处 理 器 中 加 入 了 更 多 流 式 SIMD 
扩展 (Stream SIMD Extension,SSE) 指 令 集 , 包 括 SSE、SSE2、SSE3、SSSE3、SSE4 以 及 
AVX(Advanced Vector Extensions) 等 ,这 些 都 是 典型 的 数据 级 并 行 处 理 技术 。 

3) 多 指令 流 单 数据 流 (MISD) 结 构 

MISD(CMultiple Instruction stream and Single Data stream) 指 在 同一 时 刻 有 多 个 指令 
在 执行 ,并 且 处 理 的 是 同一 个 数据 。 这 种 方式 实际 上 很 少 出 现 , 仅 作为 一 种 理论 模型 提出 ， 
在 现实 中 这 种 工作 方式 的 计算 机 根本 不 存在 。 

4) 多 指令 流 多 数据 流 (MIMD) 结 构 

MIMD(Multiple Instruction stream and Multiple Data stream) 指 同时 有 多 个 指令 分 别 
处 理 多 个 不 同 的 数据 。 这 种 系统 中 一 定 包 含有 多 个 计算 机 或 多 个 处 理 器 。MIMD 方式 是 
目前 大 多 数 并 行 处 理 计算 系统 的 处 理 方式 。 
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根据 Flynn 分 类 法 ,并 行 处 理 计 算 系 统 有 SIMD 和 MIMD 两 种 并 行 计算 模式 ,其 中 ， 
SIMD 是 一 种 数据 级 并 行 模式 ,而 MIMD 是 一 种 并 行程 度 更 高 的 线程 级 并 行 或 线程 级 以 上 
并 行 计算 模式 。 

2. 按 地 址 空间 的 访问 方式 划分 

采用 MIMD 计算 模式 的 系统 中 一 定 包含 多 个 计算 机 或 多 个 处 理 器 。 为 了 区 分 不 同 的 并 
行 处 理 计 算 结 构 , 有 人 提出 从 主 存 地 址 空间 的 访问 方式 上 来 区 分 多 计算 机 (multicomputers) 
系统 和 多 处 理 器 (multiprocessor) 系统 。 

1) 多 计算 机 系统 

多 计算 机 系统 指 具 有 和 多 个 私有 地 址 空间 的 并 行 处 理 系统 ,多 计算 机 系统 中 每 个 计算 节 
点 都 具有 各 自私 有 的 存储 器 ,并 各 自 具 有 独立 的 主 存 地 址 空间 ,因此 ,这 种 并 行 处 理 系统 采 
用 的 是 一 种 分 布 式 存储 器 访问 方式 。 显 然 ,在 这 种 多 计算 机 系统 中 , 某 一 个 计算 节点 无 法 通 
过 执行 LOAD 指令 和 STORE 指令 来 访问 另 一 个 节点 的 私有 存储 器 ,而 是 通过 消息 传递 方 
式 进行 数据 传送 ,因此 ,也 称 为 消息 传递 系统 。 

2) 多 处 理 器 系统 

多 处 理 器 系统 是 共享 存储 多 处 理 器 (Shared Memory mnultiProcessor,SMP) 系 统 的 简 
称 , 它 是 一 种 具有 共享 的 单一 地 址 空间 的 并 行 处 理 系统 。 因 此 ,在 多 处 理 器 系统 中 ,每 个 处 
理 器 都 可 以 通过 LOAD 指令 和 STORE 指令 访问 系统 中 的 存储 器 ,不 管 这 些 存储 器 是 连接 
在 一 条 总 线 上 的 共享 存储 器 ,还 是 连接 在 某 个 处 理 器 上 的 本 地 存储 器 。 这 类 系统 也 被 称 为 
共享 存储 系统 。 

3. 按 存储 访问 时 间 是 否 一 致 划分 

对 于 多 处 理 器 系统 ,可 以 按照 存储 访问 时 间 是 否 一 致 分 为 一 致 性 内 存 访 问 (UMA) 和 非 
一 致 性 内 存 访问 (NUMA) 两 类 。 

1) 一 致 性 内 存 访 问 (UMA) 结 构 

UMA(Uniform Memory Access) 结 构 指 每 个 处 理 器 对 所 有 存储 单元 的 访问 时 间 是 一 
致 的 。 如 果 所 有 处 理 器 都 共享 一 个 存储 器 ,那么 ,每 个 处 理 器 通过 LOAD 指令 和 STORE 
指令 访问 任何 一 个 存储 单元 ,其 访问 时 间 是 相同 的 。 它 是 一 种 普遍 使 用 的 并 行 处 理 计算 机 
结构 。 

2) 非 一 致 性 内 存 访问 (NUMA) 结 构 

NUMA(Non-Uniform Memory Access) 结 构 指 处 理 器 对 不 同 的 存储 单元 的 访问 时 间 
可 能 不 一 致 ,访问 时 间 与 存储 单元 的 位 置 有 关 ,若是 本 地 存储 器 ,访问 时 间 就 短 ; 若 是 其 他 处 
理 器 所 连接 的 存储 器 , 则 访问 时 间 就 长 。 如 果 在 NUMA 结构 中 引入 高 速 缓存 一 致 性 确认 
机 制 , 则 称 为 高 速 缓存 一 致 的 非 一 致 性 内 存 访问 (Cache-Coherent NUMA,CC-NUMA) 。 

4. 按 处 理 单元 的 位 置 及 其 互 连 方式 划分 

按 处 理 单元 的 位 置 及 其 互 连 方式 来 分 ,可 以 分 为 多 核 (Multi-Core) 、 众 核 (Many Core)、 
对 称 多 处 理 器 (SMP) 、 大 规模 并 行 处 理 机 (MMP) 、 集 群 、 网 格 等 。 

1) 多 核 芯片 

在 一 个 CPU 芯片 中 包含 多 个 处 理 单元 ,每 个 处 理 单元 称 为 一 个 核 (core), 所 有 核 可 能 
共享 一 个 LLC(Last-Level Cache) ,并 共享 主 存储 器 。 通 常 将 多 核 芯 片 称 为 片 级 多 处 理 器 
(Chip-level MultiProcessing,CMP)。 通 常 多 核 CPU 芯片 的 核 数 为 2.4、8 等 几 种 。 
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2) 众 核 芯片 

在 一 个 面向 三 维 图 形 .视频 和 可 视 化 处 理 的 GPU (Graphics Processing Unit) 芯片 中 ， 
包含 多 达 几 百 个 的 简单 核 , 众 核 GPU 芯片 的 设计 着 力 于 在 众多 的 简单 核 上 有 效 地 执行 众 
多 的 并 行 线程 ,并 在 线程 组 之 间 对 数据 并 行 处 理 进 行 优化 。 

3) 对 称 多 处 理 器 (SMP) 

所 谓 对 称 多 处 理 器 SMP(Symmetric MultiProcessor) ,是 指 将 多 个 相同 类 型 的 CPU 通 
过 总 线 互 连 , 并 以 等 同 地 位 共享 系统 所 有 资源 , 即 ,多 个 CPU 对 称 工作 ,无 主 次 或 从 属 关 
系 。 因 为 各 CPU 共享 相同 的 物理 内 存 , 每 个 CPU 访问 内 存 中 的 任何 地 址 所 需 时 间 是 相同 
的 ,因此 ,对 称 多 处 理 器 就 是 一 种 UMA 结构 多 处 理 器 。 多 核 处 理 器 系统 、 高 档 微机 工作 站 
或 服务 器 多 用 SMP 结构 。 

4) 大 规模 并 行 处 理 机 (MPP) 

MPP(Massive Parallel Processing) 是 指 以 专用 内 联网 络 连接 数量 众多 的 处 理 单 元 而 构 
成 的 一 种 并 行 计 算 系 统 。 例 如 ,可 以 通过 专用 互连网 络 ( 如 Mesh、 交 叉 开 关 ) 将 数量 达 几 百 
甚至 几 千 个 的 对 称 多 处 理 器 CSMP) 连 接 成 大 规模 并 行 处 理 机 ,众多 SMP 服务 器 协同 工作 ， 
完成 相同 的 任务 ,因此 从 用 户 的 角度 来 看 是 一 个 服务 器 系统 ,每 个 SMP 服务 器 称 节点 ,每 
个 节点 只 能 直接 访问 自己 的 本 地 资源 (内 存 、 磁 盘 等 )。 大 多 数 MPP 是 消息 传递 系统 ,共享 
存储 MPP 系统 的 典型 代表 是 20 世纪 90 年 代 风 靡 全 球 的 SGI Origin 2000, 但 与 同期 的 消 
息 传递 MPP 系统 相 比 ,由 于 其 硬件 的 复杂 性 ,其 可 伸缩 性 相对 有 限 。 

5) 集群 

集群 (cluster) 指 通过 高 性 能 网 卡 将 若干 个 普通 PC 或 SMP 服务 器 或 工作 站 连接 而 成 
的 并 行 处 理 系统 。 集 群 中 的 每 个 计算 节点 (PC、SMP 或 工作 站 ) 都 有 各 自 的 内 存储 器 和 磁 
盘 , 主 存 地 址 空间 都 是 计算 节点 各 自私 有 的 ,因此 ,集群 是 一 种 典型 的 紧密 耦合 的 同 构 多 计 
算 机 系统 。 显 然 ,集群 属于 消息 传递 系统 。 

6) 网 格 

网 格 (grid) 是 指 用 因特网 等 广域网 络 连 接 起 来 的 远 距离 分 布 的 一 组 异 构 计 算 机 系统 构 
成 的 分 布 式 并行 处 理 系 统 。 它 是 一 种 松散 耦合 的 异 构 多 计算 机 系统 。 云 计算 (cloud 
computing) 服 务 器 就 是 由 网 格 发 展 而 来 的 。 


9.2 多 处 理 器 系统 


多 处 理 器 系统 是 共享 存储 多 处 理 器 系统 的 简称 , 它 是 一 种 具有 共享 的 单一 地 址 空间 的 
并 行 处 理 系统 。 因 此 ,在 多 处 理 器 系统 中 ,每 个 处 理 器 都 访问 一 个 公共 的 主 存储 器 ,因而 每 
个 处 理 器 在 执行 指令 时 所 产生 的 虚拟 地 址 都 属于 同一 个 虚拟 地 址 空间 。 

采用 单 地 址 空间 的 多 处 理 机 系统 中 ,每 个 处 理 器 可 以 通过 LOAD 和 STORE 指令 访问 
共享 存储 器 ,处 理 器 之 间 通 过 共享 内 存 变量 进行 通信 ,因而 ,可 能 会 同时 有 多 个 处 理 器 访问 
同一 个 共享 变量 ,因而 需要 处 理 器 之 间 进 行 相互 协调 , 即 需 要 进行 同步 控制 。 如 果 没 有 同步 
控制 机 制 , 很 可 能 一 个 处 理 器 还 没有 完成 对 一 个 共享 内 存 变 量 的 修改 时 就 被 男 一 个 处 理 器 
打 断 而 修改 了 该 共享 变量 的 值 。 常 用 的 同步 机 制 是 通过 对 共享 变量 加 锁 的 方式 来 控制 处 理 
器 对 共享 变量 互 斥 访问 。 
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多 处 理 器 系统 的 硬件 结构 有 以 下 3 种 : 一 致 性 内 存 访问 (UMA), 非 一 致 性 内 存 访问 
(NUMA) 和 高 速 缓存 一 致 的 非 一 致 性 内 存 访问 (CC-NUMA)。 


9.2.1 UMA 多 处 理 器 结构 


UMA 多 处 理 器 系统 中 ,每 个 处 理 器 对 所 有 存储 单元 的 访问 时 间 是 一 致 的 , 即 每 个 处 理 
器 通过 LOAD 和 STORE 指令 访问 共享 存储 器 时 ,其 访问 时 间 与 处 理 器 和 存储 器 的 相对 位 
置 没 有 关系 。 因 此 ,UMA 多 处 理 机 就 是 对 称 多 处 理 机 (SMP)。 根 据 处 理 器 与 共享 存储 器 
之 间 的 连接 方式 ,分 为 基于 总 线 . 基 于 交叉 开关 网 络 和 基于 多 级 交换 网 络 连接 等 几 种 UMA 
多 处 理 器 系统 。 

1. 基于 总 线 连 接 的 UMA 多 处 理 器 系统 

基于 总 线 的 UMA 多 处 理 器 系统 通过 总 线 将 多 个 相同 类 型 的 处 理 器 互 连 , 并 共享 同一 
个 存储 器 ,其 互 连 结构 如 图 9. 1 所 示 。 
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图 9.1 基于 总 线 互 连 的 UMA 多 处 理 器 系统 


图 9.1(a) 中 所 示 的 是 CPU 中 不 带 高 速 缓存 (cache) 的 UMA 多 处 理 器 系统 ,多 个 CPU 
模块 通过 总 线 与 一 个 共享 存储 器 相连 。 当 某 个 CPU 需要 访问 主 存 时 , 它 首 先 检 查 总 线 是 
否 忙 。 如 果 检 测 到 总 线 忙 , 则 等 待 ,直到 总 线 空 闪 ;否则 ,该 CPU 通过 总 线 与 主 存 进行 一 次 
数据 交换 。 显 然 , 这 种 方式 下 , 当 CPU 只 是 少数 几 个 时 间 题 不 是 很 大 ,但 是 , 当 CPU 个 数 
很 多 时 ,就 会 经 常 发 生 多 个 CPU 访问 主 存 冲突 问题 ,使 得 在 很 多 时 间 内 ,大 多 数 CPU 都 会 
因为 总 线 忙 而 处 于 等 待 状态 ,导致 CPU 利用 率 极其 低下 。 

图 9.1(a) 中 的 CPU 利用 率 低下 问题 的 解决 方案 是 在 CPU 中 加 入 高 速 缓存 ,其 硬件 结 
构 如 图 9.1(b) 所 示 。 在 每 个 CPU 模块 中 添加 了 高 速 缓存 后 ,由 于 程序 访问 的 局 部 性 特点 ， 
使 得 CPU 需要 的 信息 大 多 可 以 在 内 部 的 高 速 缓存 中 访问 到 ,因此 ,总 线 就 不 会 太 繁忙 , 因 
而 ,可 以 在 总 线 上 连接 更 多 的 CPU 模块 。 

在 CPU 中 添加 高 速 缓存 ,在 解决 CPU 利用 率 低下 的 同时 ,也 会 带 来 新 的 问题 , 那 就 是 
cache 一 致 性 问题 。 因 为 每 个 CPU 内 的 高 速 缓存 中 存放 的 是 共享 主 存 中 的 信息 的 副本 , 主 
存 中 的 一 个 主 存 块 有 可 能 同时 在 多 个 CPU 的 高 速 缓存 中 ,如 果 某 个 CPU 修改 了 存放 在 本 
地 高 速 缓存 中 的 一 个 副本 中 的 内 容 , 那 么 就 会 发 生 与 其 他 CPU 中 的 副本 以 及 主 存 中 的 副 
本 不 一 致 的 情况 ,从 而 导致 程序 执行 结果 出 错 , 这 种 现象 称 为 cache 一 致 性 (cache 
coherency) 问 题 。 

为 了 解决 cache 一 致 性 问题 ,需要 有 专门 的 cache 一 致 性 协议 。 最 流行 的 协议 称 为 监听 
协议 (snooping cache coherency) ,其 基本 思想 是 : 所 有 的 高 速 缓存 控制 器 都 会 监视 或 侦 听 
总 线 , 以 便 确认 本 地 是 否 存在 其 他 CPU 内 高 速 缓 存 中 的 相同 副本 。 对 于 读 操作 来 说 ,多 个 
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相同 副本 不 会 发 生 问题 ;对 于 写 操作 来 说 , 则 必须 互 斥 访 问 ,并 更 新 其 他 副本 。 因 此 ,在 写 操 
作 发 生 时 ,监听 协议 必须 能 对 所 有 其 他 副本 设置 为 无 效 ,或 者 用 刚 写 和 人 的 数据 对 所 有 其 他 副 
本 进行 更 新 ,前 者 称 为 写 无 效 (write-invalidate) 方 式 。 在 Pentium 4 和 其 他 Intel 的 许多 处 
理 器 中 都 用 到 一 个 称 为 MESI 的 协议 , 它 采 用 的 就 是 写 无 效 方式 。 

还 有 一 种 总 线 连接 共享 存储 器 的 UMA 多 处 理 机 采用 图 9. 1(c) 所 示 的 方式 ,每 个 CPU 
模块 除了 有 高 速 缓存 外 ,还 连接 了 一 个 本 地 的 私有 存储 器 , 它 通过 专门 的 私有 总 线 和 CPU 
相连 。 在 这 种 结构 的 多 处 理 器 系统 中 ,共享 的 主 存储 器 只 用 来 存放 可 写 的 共享 变量 ,而 将 所 
有 程序 的 代码 、 各 种 非 共享 的 常量 和 变量 、 只 读数 据 以 及 栈 内 信息 等 都 存 人 本 地 私有 存储 器 
中 。 在 大 多 数 情况 下 ,这 种 设计 方式 会 使 得 总 线 繁 忙 程度 比 图 9. 1(b) 所 示 的 设计 方式 更 
低 , 从 而 可 以 在 总 线 上 连接 更 多 的 CPU 模块 。 不 过 ,这 种 方式 下 ,因为 涉及 可 执行 文件 生 
成 时 如 何 分 配 程序 代码 和 数据 的 存储 地 址 空间 ,所 以 需要 编译 器 、 链 接 器 和 操作 系统 等 各 种 
系统 软件 的 功能 进行 相应 的 调整 。 

2. 基于 交叉 开关 网 络 的 UMA 多 处 理 器 系统 

在 基于 总 线 连接 的 方式 中 ,因为 所 有 CPU 都 通过 单一 的 总 线 访问 共享 存储 器 ,很 容易 
造成 总 线 繁忙 ,即使 使 用 高 速 缓 存 和 私有 存储 器 ,也 会 限制 所 连接 的 CPU 模块 的 数量 ,最 
多 只 能 连接 16 一 32 个 。 要 连接 更 多 的 CPU ,应 使 用 其 他 互 连 方式 。 连 接 m 个 CPU 模块 到 
n 个 存储 器 模块 的 最 简单 电路 是 交叉 开关 连接 网 路 , 它 允 许 任 何 连 接 在 一 组 进 线 上 的 CPU 
模块 通过 网 络 上 的 交叉 开关 连接 到 任何 出 线 上 的 存储 器 模块 。 9.2 所 示 的 是 一 个 8X8 
的 交叉 开关 连接 方式 。 
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图 9.2 8X8 的 交叉 开关 连接 方式 


图 9. 2 所 示 的 交叉 开关 连接 多 处 理 器 系统 中 ,水平线 ( 进 线 ) 和 垂直 线 ( 出 线 ) 的 每 个 交 
叉 点 是 一 个 电子 开关 ,其 开 闭 状态 取决 于 进 线 和 出 线 是 否 需要 相连 。 每 个 CPU 模块 可 以 
根据 需要 选择 和 哪个 存储 器 模块 连接 。 图 9. 2 所 示 的 连接 状态 是 CPU 模块 1 连接 到 存储 
模块 2,CPU 模块 2 连 到 存储 模块 1,CPU 模块 4 连 到 存储 模块 4,CPU 模块 5 连 到 存储 模 
块 6,CPU 模块 7 连 到 存储 模块 7。CPU 和 存储 器 的 相连 状态 可 以 根据 需要 改变 。 

使 用 交叉 开关 互 连 , 使 得 不 同 的 CPU 可 以 方便 地 连接 到 不 同 的 存储 器 ,因而 大 大 降低 
了 多 个 CPU 同时 访问 一 个 存储 器 的 访问 冲突 ,从 而 降低 了 CPU 的 等 待 时 间 ,提高 了 CPU 
的 利用 率 。 不 过 ,因为 交叉 开关 的 数量 为 mXn, 所 以 ,在 CPU 和 存储 器 模块 的 个 数 很 大 的 
情况 下 ,交叉 开关 的 数量 急剧 上 升 ,因而 ,不 可 能 用 交叉 开关 方式 构建 大 规模 系统 。 





计算 机 组 成 与 系统 结 欧 (第 2 版 ) 





3. 基于 多 级 交换 网 络 的 UMA 多 处 理 器 系统 
为 了 减少 连接 网 络 的 硬件 ,可 以 采用 一 种 基于 2X2 交叉 开关 的 多 级 交换 网 络 连 接 方 
式 。Omega 网 络 是 一 种 简单 经 济 的 多 级 交换 网 络 。 图 9. 3 是 Omega 网 络 连 接 示意 图 。 
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图 9.3 ”Omega 交换 网 络 连接 方式 


图 9.3(a) 是 一 个 2X2 交叉 开关 示意 图 ,A、.B 是 两 个 输入 端 ,X、Y 是 两 个 输出 端 , 任 一 
输入 端 可 以 被 交换 至 任 一 输出 端 。 图 9. 3(b) 给 出 了 通过 交换 网 络 传递 的 消息 的 格式 ,由 
4 个 字段 组 成 ,M 字段 表示 存储 器 模块 号 ,A 字段 表示 模块 内 的 地 址 ,R/W 字段 表示 读 / 写 
操作 ,V 字段 表示 写 操作 时 的 写 人 值 。 对 于 8 个 CPU 及 8 个 存储 器 模块 的 连接 ,图 9. 3(c) 
所 示 的 Omega 交换 网 络 仅 用 了 12 个 2X2 交叉 开关 , 即 总 共 48 个 交换 器 ,而 对 于 交叉 开关 
网 络 则 需要 64 个 交换 开关 。 

Omega 交换 网 络 的 连接 过 程 很 简单 ,每 个 2X2 交叉 开关 利用 消息 中 的 M 字段 来 确定 
消息 应 继续 发 送 到 哪个 输出 ,M 中 相应 位 为 0, 则 选择 输出 到 X; 和 否则 选择 输出 到 Y。 例 如 ， 
假定 CPU 模块 2 要 读 取 存储 器 模块 4 中 第 8 单元 的 内 容 , 则 它 将 先 发 送 一 个 消息 (100， 
1000,READ) 到 开关 1C。 因 为 消息 中 M 二 100, 所 以 ,1C 根据 M 中 最 左边 一 位 1 选择 2B 
作为 下 一 站 。 开 关 2B 接收 消息 到 后 , 它 将 根据 M 中 中 间 一 位 0 选择 3C 作为 下 一 站 。 开 关 
3C 接收 消息 到 后 , 它 将 根据 M 中 最 右 一 位 0 选择 存储 器 4 作为 需 访问 的 存储 模块 进行 读 
操作 。 图 9. 3(c) 中 的 路 径 x 表 示 了 CPU 模块 2 访问 存储 模块 4 的 消息 传递 过 程 ,路 径 y 表 
示 了 CPU 模块 3 访问 存储 模块 3 的 消息 传递 过 程 。 显 然 , 这 两 个 访问 操作 不 会 使 用 任何 相 
同 的 开关 、 连 线 和 存储 模块 ,因此 ,两 者 可 以 并 行进 行 。 

在 Omega 交换 网 络 中 ,如 果 两 个 访问 操作 同时 进行 并 且 它 们 的 消息 传递 路 径 中 使 用 到 
了 相同 的 开关 或 连 线 , 则 其 中 一 个 访问 操作 必须 等 待 ,也 即 Omega 网 络 是 一 种 阻塞 网 络 。 
为 了 减少 因 等 待 而 引起 的 阻塞 ,应 尽量 减少 访 存 冲突 。 而 要 减少 访 存 冲突 ,应 使 CPU 模块 
对 存储 模块 的 访问 操作 均衡 地 分 布 在 多 个 存储 模块 中 ,为 此 ,存储 器 模块 应 采用 交叉 编 址 
方式 。 


9.2.2 NUMA 多 处 理 器 结构 


因为 UMA 多 处 理 器 系统 要 保证 每 个 处 理 器 的 访 存 时 间 与 处 理 器 与 存储 模块 之 间 的 相 
对 位 置 无 关 , 因 而 ,其 连接 的 处 理 器 规模 受到 一 定 的 限制 。 基 于 总 线 的 UMA 多 处 理 机 会 因 
为 总 线 冲 突 而 无 法 连接 很 多 CPU ,交叉 开关 和 多 级 交换 网 络 也 因为 需要 额外 的 交换 器 硬件 
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而 限制 了 网 络 的 规模 。 如 果 要 构建 规模 更 大 的 多 处 理 器 系统 ,必须 打破 访 存 时 间 一 致 的 限 
制 ,在 保证 单一 地 址 空间 的 前 提 下 人 允许 访 存 时 间 不 一 致 ,因此 ,出 现 了 非 一 致 内 存 访问 
(NUMA) 多 处 理 机 。 

在 NUMA 多 处 理 器 系统 中 ,每 个 处 理 器 都 带 有 一 个 本 地 存储 模块 ,与 UMA 一 样 ,所 
有 共享 存储 模块 统一 编 址 ,以 形成 具有 单一 地 址 空间 的 一 个 逻辑 存储 器 。 只 不 过 在 UMA 
中 必须 保证 访 存 时 间 一 致 ,而 在 NUMA 中 处 理 器 访问 本 地 存储 模块 要 快 于 对 非 本 地 存储 
模块 的 访问 。 因 为 所 有 本 地 存储 模块 和 非 本 地 存储 模块 都 在 同一 个 地 址 空间 ,因此 , 非 本 地 
存储 模块 也 通过 LOAD 和 STORE 指令 来 访问 。 由 此 可 见 ,NUMA 计算 机 上 运行 的 所 有 
UMA 程序 无 须 做 任何 改变 ,但 在 相同 的 主 频 下 其 性 能 不 如 UMA 计算 机 上 的 性 能 。 

因为 NUMA 多 处 理 器 系统 中 共享 的 存储 空间 分 布 在 不 同 的 处 理 器 节点 上 ,因此 ,在 节 
点 互 连 、 并 行 编程 .cache 一 致 性 方面 所 遇 到 的 问题 与 UMA 多 处 理 机 不 同 。 处 理 器 中 不 带 
高 速 缓存 时 ,系统 被 称 为 NC-NUMA(No Cache NUMA) ;处 理 器 中 带 有 一 致 性 高 速 缓存 
时 ,系统 被 称 为 CC-NUMA。CC-NUMA 多 处 理 器 系统 必须 考虑 如 何 维持 处 理 器 cache 的 
一 致 性 ,在 CC-NUMA 中 最 常见 的 是 基于 目录 的 cache 一 致 性 机 制 。 图 9. 4 给 出 了 一 个 基 
于 目录 的 CC-NUMA 多 处 理 机 结构 。 
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从 图 9.4 可 以 看 出 ,在 CC-NUMA 多 处 理 器 系统 中 ,每 个 CPU 都 通过 局 部 总 线 与 本 地 
存储 器 相连 形成 一 个 节点 ,每 个 CPU 中 有 高 速 缓 存 ,每 个 存储 器 中 都 有 一 个 存放 目录 信息 
的 存储 区 。 所 有 节点 通过 某 种 互连网 络 进行 互 连 。 

基于 目录 的 CC-NUMA 多 处 理 器 结构 的 基本 思想 是 ,每 个 处 理 器 采用 一 个 目录 来 记录 
本 地 存储 器 中 每 个 主 存 块 与 高 速 缓存 中 cache 行 的 对 应 情况 。 每 个 主 存 块 对 应 一 个 目录 
项 ,目录 项 中 有 专门 的 一 位 有 效 位 ,表示 对 应 的 主 存 块 是 否 在 某 个 cache 行 中 , 若 该 位 为 1， 
则 表示 在 cache 中 ,目录 项 中 记录 对 应 的 cache 行 所 在 的 节点 号 ;该 位 为 0, 则 说 明 不 在 
cache 中 。 
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图 9.4 所 示 的 系统 中 共有 256 个 节点 ,每 个 节点 内 的 存储 器 大 小 为 16MB, 并 且 连 续 编 
址 ,因此 ,该 系统 总 的 主 存 空 间 大 小 为 256 X16MB==4GB。 通 用 计算 机 的 存储 器 都 采用 字 
节 编 址 ,因此 ,该 系统 的 主 存 地 址 为 32 位 ,其 中 高 8 位 为 存储 器 号 , 即 节点 号 , 低 24 位 为 存 
储 器 内 地 址 。 根 据 图 9.4(b) 中 的 主 存 地 址 划分 , 低 6 位 为 块 内 偏 移 , 这 里 的 “ 块 ” 指 主 存 与 
高 速 缓存 交换 的 主 存 块 ,因此 主 存 块 大 小 为 64B, 每 个 存储 器 占 16MB/64B 二 2* 个 主 存 块 。 
因此 ,每 个 节点 对 应 的 目录 中 有 2 个 目录 项 ,同时 图 9.4(b) 所 示 的 主 存 地 址 低 24 位 被 分 
为 两 个 字段 ,其 中 高 18 位 为 主 存 块 号 , 它 可 以 作为 目录 项 的 索引 。 

为 了 理解 上 述 系统 如 何 工 作 , 现 举 一 个 例子 。 例 如 ,假定 在 节点 18 中 的 CPU 执行 了 一 
条 LOAD 指令 。 首 先 , 在 节点 18 中 的 MMU 将 LOAD 指令 指出 的 虚拟 地 址 转换 为 物理 地 
址 ,假设 该 物理 地 址 为 480000C8H ,其 高 8 位 值 为 72, 低 24 位 值 为 200, 说 明 该 LOAD 指令 
将 读 取 节 点 72 的 存储 器 中 200 号 单元 开始 的 数据 ,因此 ,节点 18 中 的 MMU 将 不 会 到 本 地 
存储 器 中 取 数 ,而 是 把 请 求 消 息 通过 互连网 络 发 送 到 节点 72。 节 点 72 接收 到 请 求 消息 后 ， 
先 查看 目录 。 因 为 主 存 地 址 中 的 主 存 块 号 为 3, 所 以 查看 目录 项 3 ,发 现 有 效 位 为 0, 说 明 对 
应 主 存 块 不 在 任何 cache 行 中 ,因此 ,节点 72 中 的 主 存 控制 器 将 存储 器 中 的 3 号 主 存 块 读 
出 并 传送 到 节点 18 ,同时 将 第 三 目录 项 的 有 效 位 置 1, 节 点 号 置 为 18, 以 表示 对 应 主 存 块 被 
高 速 缓存 在 节点 18 中 。 

如 果 LOAD 指令 访问 的 物理 地 址 为 48000108H, 则 请 求 消息 中 的 主 存 块 号 为 4, 因此 
查看 目录 项 4, 发 现 有 效 位 为 1, 节 点 号 为 35 ,说 明 对 应 主 存 块 已 被 高 速 缓存 在 节点 35。 此 
时 ,节点 72 中 的 主 存 控制 器 将 目录 项 4 中 的 节点 号 改 为 18 ,并 向 节点 35 发 送 一 个 消息 , 指 
示 节 点 35 将 高 速 缓存 中 的 该 主 存 块 送 到 节点 18 并 且 使 其 自身 高 速 缓存 中 对 应 的 cache 行 
无 效 。 

由 上 面 的 例子 可 以 看 出 ,CC-NUMA 虽然 是 一 种 共享 存储 器 多 处 理 器 ,但 是 ,由 于 物理 
存储 器 分 布 在 不 同 节点 上 ,因此 ,在 LOAD 和 STORE 指令 进行 存储 访问 过 程 中 还 需要 有 
很 多 消息 传递 。 

上 述 介 绍 的 基于 目录 的 CC-NUMA 多 处 理 机 是 一 种 简单 处 理 方式 ,每 个 主 存 块 只 能 被 
高 速 缓存 在 一 个 节点 中 ,显然 这 种 方式 会 带 来 更 多 的 网 络 通信 开销 。 


9.2.3 多 处 理 器 系统 中 的 互连网 络 


除了 上 面 介绍 的 用 于 UMA 多 处 理 机 的 单 总 线 、 交 叉 开 关 和 多 级 交换 网 络 互 连 方式 以 
外 ,在 CCNUMA 多 处 理 机 中 ,每 个 CPU- 存 储 器 节点 之 间 还 可 以 有 其 他 的 网 络 互 连 方式 。 
图 9.5 中 给 出 了 几 种 常用 的 互连网 络 结构 。 图 中 用 方块 表示 一 个 CPU- 存 储 器 节点 ,用 黑 
圆 点 表示 交换 器 。 


米 虽 长 嫩 


(a) 星 形 (b) 环形 (c) 网 格 (d) 立方 体 
图 9.5 互连网 络 拓扑 结构 
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在 小 型 系统 中 ,可 以 采用 单一 交换 器 的 星 形 结构 或 不 需要 交换 器 的 环形 结构 , 如 
图 9. 5Ca) 和 图 9. 5(b) 所 示 。 若 要 构建 大 规模 系统 , 则 可 以 采用 如 图 9. 5(c) 所 示 的 网 格 结 
构 或 其 变种 (如 双 凸 面 结 构 ) ,也 可 以 采用 如 图 9. 5(d) 所 示 的 立方 体 结构 或 其 扩展 结构 (如 
超 立 方 体 结构 )。 


9.2.4 片 级 多 处 理 器 和 多 线程 技术 


纵 观 计算 机 的 发 展 历史 ,日 益 提 升 计算 性 能 是 计算 技术 不 断 追 求 的 目标 和 计算 技术 发 
展 的 主要 特征 之 一 。 为 了 提升 单 处 理 器 计算 机 系统 的 性 能 ,人 们 采用 了 多 种 技术 手段 ,从 扩 
展 字 长 ,提高 集成 度 、 提 升 主 频 , 到 改进 微 架 构 , 采 用 多 种 指令 级 并 行 (Instruction-Level 
Parallelism,ILP) 技 术 等 。 

到 2004 年 以 前 ,上 述 这 些 技术 手段 和 改进 措施 都 能 极 大 地 提高 微 处 理 器 的 计算 性 能 。 
但 是 ,此 后 处 理 器 的 性 能 便 不 再 像 人 们 预期 的 那样 继续 提高 。 人 们 发 现 , 随 着 集成 度 的 不 断 
提高 和 处 理 器 主 频 的 不 断 提 升 , 单 核 处 理 器 的 性 能 提升 开始 接近 极限 。 首 先 ,芯片 集成 度 会 
受到 半导体 器 件 制造 工艺 的 限制 。 目 前 集成 电路 已 经 达到 十 多 个 纳米 的 极 小 尺度 ,因此 , 芯 
片 集成 度 不 可 能 无 限制 提高 。 与 此 同时 ,根据 芯片 的 功 耗 公式 P==CV*f( 其 中 ,P 是 功 耗 ;C 
是 时 钟 跳 变 时 门 电路 电容 ,与 集成 度 成 正比 ;V 是 电压 ;了 是 主 频 ) ,芯片 的 功 耗 与 集成 度 成 
正比 ,和 主 频 成 正比 。 集 成 度 和 主 频 的 大 幅度 提升 导致 了 功 耗 的 快速 增 大 ,进一步 导致 了 难 
以 克服 的 处 理 器 散热 问题 。 而 指令 级 并 行 (ILP) 技 术 也 已 经 发 展 到 了 极限 。2004 年 5 月 
Intel 处 理 器 Tejas 和 Jayhawk(4GHz) 因 无 法 解决 散热 问题 而 最 终 放弃 ,标志 着 升 频 技术 时 
代 的 终结 。 

2005 年 ,Intel 公司 宣布 了 微 处 理 器 技术 的 重大 战略 调整 , 即 从 2005 年 开始 ,放弃 过 去 
不 断 追 求 单 处 理 器 性 能 提升 的 战略 ,转向 以 多 核 微 处 理 器 架构 实现 性 能 提升 的 思路 。 自 此 ， 
Intel 公司 和 其 他 微 处 理 器 制造 商 推 出 了 许多 多 核 架 构 , 微 处 理 器 全 面 转 入 了 多 核 计算 技术 
的 时 代 。 

多 核 计算 的 基本 思路 是 : 在 一 个 CPU 芯片 中 设计 多 个 简单 的 处 理 器 核 ,通过 多 个 核 的 
并 行 计算 来 提高 计算 性 能 。 因 此 基于 一 个 CPU 芯片 可 以 实现 一 个 多 处 理 器 系统 。 因 而 ， 
基于 多 核 芯 片 的 计算 机 被 称 为 片 级 多 处 理 机 (Chip-level MultiProcessors,CMP) 。 

自 Intel 公司 在 2006 年 推出 双核 的 Pentium D 处 理 器 以 来 ,已 经 出 现 了 很 多 4 核 到 12 
核 的 多 核 处 理 器 产品 ,如 2007 年 Intel 公司 推出 的 主要 用 于 个 人 电脑 的 4 核 Core 2 Quad 
系列 以 及 2008 一 2010 年 推出 的 Core i5 和 i7 系列 。Intel 公司 在 服务 器 市 场 也 陆续 推出 了 
Xeon E5 系列 4 一 12 核 处 理 器 ,以 及 Xeon E7 系列 6 一 10 核 处 理 器 。 

8.4.2 节 中 的 图 8. 12 给 出 了 多 核 处 理 器 Intel Core i7 系列 的 连接 结构 。 从 图 8. 12 中 
可 以 看 出 ,Intel Core i7 微 处 理 器 芯片 内 含 4 个 核 , 每 个 核 是 一 个 简单 的 处 理 器 ,包含 高 速 
缓存 (Ll cache 和 L2 cache)、TLB、MMU ,指令 预 取 部 件 和 相应 的 指令 执行 功能 部 件 ,能 够 
独立 执行 指令 序列 。 核 与 核 之 间 高 速 互 连 , 并 且 所 有 核 共享 一 个 芯片 内 的 L3 联合 cache 和 
一 个 存储 控制 器 ,该 存储 控制 器 通过 存储 器 总 线 与 主 存 储 器 相连 ,所 有 核 共 享 主 存 储 器 。 可 
见 , 从 连接 结构 和 软件 角度 来 看 , 它 与 UMA 多 处 理 器 系统 没有 什么 差别 。 

多 线程 (multithreading) 技 术 是 一 种 共享 单 处 理 器 中 功能 部 件 的 技术 。 每 个 线程 相当 
于 一 个 指令 序列 ,为 了 支持 多 线程 并 发 执行 ,必须 为 每 个 线程 提供 单独 的 通用 寄存 器 组 、 单 
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独 的 程序 计数 器 等 ,并 提供 快速 的 线程 切换 。 有 3 种 多 线程 实现 方式 : 细 粒 度 多 线程 、 粗 粒 
度 多 线程 和 同时 多 线程 (Simultaneous MultiThreading,SMT)。 

细 粒 度 多 线程 通过 在 多 个 线程 之 间 轮 流 交叉 执行 指令 的 方式 实现 多 线程 。 这 种 方式 
下 ,处 理 器 能 在 每 个 时 钟 周期 切换 线程 ,例如 ,在 时 钟 周 期 i, 将 线程 1 中 的 多 条 指令 发 射 到 
多 个 发 射 槽 中 执行 ;在 时 钟 周 期 i 十 1, 将 线程 2 中 的 多 条 指令 发 射 到 多 个 发 射 槽 中 执行 。 

粗 粒 度 多 线程 方式 则 仅 在 某 个 线程 出 现 了 较 大 开销 的 阻塞 时 才 切 换 线 程 ,例如 ,发 生 2 
级 cache 不 命中 的 情况 。 这 种 方式 下 , 当 发 生 流水 线 阻 塞 时 ,必须 将 被 阻塞 的 流水 线 冻结 或 
清空 ,新 线程 的 指令 开始 执行 前 需要 重 填 流 水 线 ,因此 ,线程 切换 的 开销 比 细 粒 度 多 线程 
更 大 。 

同时 多 线程 是 上 述 两 种 多 线程 技术 的 变种 , 它 利用 多 发 射 动 态 调度 处 理 器 中 更 多 的 功 
能 部 件 ,在 实现 指令 级 并 行 的 同时 实现 线程 级 并 行 , 即 , 它 能 在 同一 个 时 钟 周 期 中 ,在 不 同 的 
发 射 槽 中 发 射 不 同 线程 中 的 指令 。 

显然 ,多 线程 技术 可 以 提高 处 理 器 中 的 功能 部 件 的 利用 率 。 例 如 ,在 一 个 超标 量 处 理 器 
中 ,如 果 不 支 持 多 线程 而 只 有 单个 指令 流 ,那么 ,在 很 多 时 候 同 时 发 射 的 指令 条 数 不 能 填 满 
多 个 发 射 槽 ,导致 发 射 槽 中 的 功能 部 件 空闲 。 而 且 , 在 指令 执行 过 程 中 ,因为 指令 cache 缺 
失 等 情况 而 发 生 阻 塞 时 ,整个 处 理 器 都 处 于 空转 状态 。 

Intel 处 理 器 中 的 超 线程 (Hyper-Threading) 即 为 同时 多 线程 SMT ,在 一 个 单 处 理 器 或 
单个 核 中 设置 了 多 套 线程 状态 部 件 ,而 共享 高 速 缓存 和 功能 部 件 。 


9.3 多 计算 机 系统 


多 处 理 器 系统 由 于 共享 同一 个 主 存 地 址 空间 ,所 以 其 通信 方式 简单 ,一 个 进程 或 线程 向 
存储 器 中 写 的 信息 可 以 被 其 他 进程 或 线程 读 取 。 但 是 ,其 连接 的 处 理 器 规模 不 可 能 很 大 , 因 
此 ,出 现 了 不 共享 存储 空间 的 多 计算 机 系统 。 在 多 计算 机 系统 中 ,每 台 计 算 机 有 各 自 独立 的 
存储 地 址 空间 和 自己 的 存储 器 ,根据 所 连接 的 计算 机 之 间 的 耦合 程度 ,分 成 集群 和 网 格 两 种 
多 计算 机 系统 。 前 者 为 采用 局 域 网 络 连接 的 、 通 过 消息 传递 进行 通信 的 紧密 耦合 多 计算 机 
系统 ,后 者 是 采用 广域网 络 连接 的 、 通 过 互联 网 协议 进行 通信 的 松散 耦合 多 计算 机 系统 。 


9.3.1 集群 多 计算 机 系统 


集群 是 采用 局 域 网 络 连接 的 、 通 过 消息 传递 进行 通信 的 紧 耦 合 多 计算 机 系统 。 许 多 大 
型 的 应 用 ,如 数据 库 系 统 、 文 件 服务 器 、Web 服务 器 等 ,都 适合 采用 集群 系统 。 它 具有 更 高 
的 可 用 性 、 更 好 的 可 靠 性 和 容错 性 。 

集群 通过 将 现成 的 普通 计算 机 用 高 性 能 网 卡 连接 而 成 。 因 此 ,相对 于 多 处 理 器 系统 中 
的 互连网 络 ,集群 的 互连网 络 速度 要 慢 得 多 。 在 多 处 理 器 系统 中 可 以 在 纳 秒 数量 级 上 访问 
存储 器 ,而 在 集群 中 ,只 能 在 微 秒 数量 级 上 发 送 消 息 。 从 体积 上 来 说 ,多 处 理 器 比 集群 要 小 
得 多 ,多 处 理 器 通常 在 一 个 机 箱 中 ,而 集群 计算 机 通常 在 一 个 或 多 个 房间 中 ,所 以 ,管理 一 个 
多 处 理 器 系统 相当 于 管理 一 台 计 算 机 ,而 管理 一 个 具有 N 个 节点 的 集群 相当 于 管理 N 个 
独立 的 节点 ,其 管理 开销 相差 很 多 。 


六 行 处 理 系统 
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1. 集群 的 互 连 与 网 卡 9 


集群 中 每 个 计算 机 节点 内 都 有 一 块 网 卡 ,通过 网 卡 将 节点 和 交换 机 相连 。 图 9. 6 是 多 
个 节点 之 间 通 过 网 卡 和 交换 机 互相 连接 的 示意 图 。 
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图 9.6 集群 中 节点 之 间 的 连接 


通常 在 互连网 络 中 采用 同步 传输 方式 ,一旦 在 网 络 上 开始 传输 一 个 信息 块 , 就 会 以 恒定 
的 传输 速率 传输 比特 流 ,为 此 ,在 每 个 网 卡 中 都 设 有 一 个 缓冲 区 ,如 图 9. 6 所 示 。 对 于 发 送 
消息 的 节点 来 说 ,将 消息 缓存 在 其 网 卡 中 ,使 得 在 网 线 上 传输 的 比特 流 不 受 发 送 节点 中 系统 
总 线 上 其 他 信息 流 ( 如 cache 行 读 、 磁 盘 DMA) 的 影响 ,以 保证 能 连续 将 比特 流传 输 到 网 络 
传输 线 上 。 对 于 接收 消息 的 节点 来 说 ,将 消息 缓存 在 其 网 卡 中 ,使 得 在 网 线 上 传输 的 比特 流 
不 受 接收 节点 中 系统 总 线 上 其 他 信息 流 的 影响 ,以 保证 传输 到 节点 中 的 信息 块 不 会 因为 来 
不 及 接收 而 丢失 。 

网 卡 中 通常 包含 多 个 DMA 通道 或 专门 的 1/O 处 理 器 ,主要 用 于 提供 可 靠 的 比特 流传 
送 ,将 信息 块 发 送 到 多 个 目的 地 、 压 缩 和 解压 缩 、 加 密 和 解密 等 功能 。 其 中 每 个 DMA 通道 
相当 于 一 个 DMA 控制 器 ,能 够 控制 完成 在 网 卡 缓冲 区 与 主 存 之 间 的 DMA 传送 。 

2. 集群 的 交换 机 制 

在 集群 中 的 节点 之 间 需 要 交换 消息 (message) ,有 时 消息 也 称 为 报 文 。 一 个 消息 可 以 
是 一 个 字符 串 .一 个 图 像 文件 一 个 电子 邮件 等 。 如 图 9.6 所 示 ,在 节点 之 间 传 输 的 消息 从 
一 个 节点 内 的 用 户 空 间 通 过 内 核 中 的 缓存 送 到 网 卡 缓冲 区 ,再 经 过 网 络 连 线 和 交换 机 被 传 
送 到 另 一 个 节点 的 网 卡 缓冲 区 ,最 后 再 通过 目的 节点 的 内 核 缓存 被 送 到 用 户 空间 中 。 

交换 机 主要 有 路 由 器 和 链 路 层 交 换 机 两 类 。 每 个 交换 机 有 若干 个 端口 ,每 个 端口 都 是 
双向 的 ,包括 输入 和 输出 两 个 方向 。 例 如 ,对 于 一 个 4 端口 交换 机 , 它 有 4 个 输入 端口 和 
4 个 输出 端口 。 

交换 机 可 以 采用 存储 转发 包 交 换 (store-and-forward packet switching) 和 电路 交换 
(circuit switching) 两 种 交换 机 制 。 有 时 将 packet 翻译 成 “分 组 ”, 因 此 ,前 者 也 被 简称 为 分 
组 交换 。 

在 采用 分 组 交换 机 制 的 网 络 中 ,一 个 消息 被 划分 成 许多 较 小 的 信息 块 ,这 些 信 息 块 称 为 
“ 包 ” 或 “分 组 ”。 存 储 转发 传输 机 制 是 指 在 交换 机 能 够 开始 向 输出 链 路 传输 该 分 组 的 第 一 个 
比特 之 前 ,必须 接收 到 整个 分 组 ,因此 ,在 其 传输 路 径 上 的 每 个 交换 机 的 相应 输入 端口 存在 
一 个 转发 时 延 TT。 若 一 个 分 组 从 节点 1 到 达 节 点 2 需要 经 过 3 个 交换 机 A、B、C, 即 一 共有 
4 跳 : 节点 1A 一 B>C 一 节点 2, 假 定 每 一 跳 的 转发 时 延 都 为 工 , 则 传输 时 间 至 少 为 4T。 
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因为 在 网 络 中 可 能 还 有 其 他 需要 交换 的 分 组 ,因此 , 某 个 交换 机 可 能 同时 需要 在 同一 个 输出 
端口 存储 转发 多 个 分 组 。 为 了 避免 发 生 冲 突 ,在 分 组 交换 机 的 每 个 输出 端口 都 设置 了 一 个 
输出 缓存 ,也 称 为 输出 队列 。 如 果 到 达 的 分 组 需要 通过 输出 端口 进行 传输 ,但 发 现 该 端口 正 
忙于 传输 其 他 分 组 , 则 到 达 的 分 组 必须 在 输出 缓存 中 等 待 。 因 此 ,分 组 交换 方式 下 ,还 存在 
输出 缓存 的 排队 时 延 。 

在 集群 中 多 采用 分 组 交换 机 制 。 虽然 分 组 交换 方式 存在 转发 时 延 和 排队 时 延 ,但 是 , 因 
为 它 将 大 的 消息 分 解 成 小 的 分 组 进行 传送 ,使 得 传输 带宽 可 以 被 许多 消息 共享 ,而 且 更 加 灵 
活 \ 简 单 和 有 效 ,实现 成 本 低 。 

3. Google 集群 系统 

Google 公司 为 全 世界 的 用 户 提供 了 在 海量 Web 页 面 中 进行 信息 检索 的 搜索 引擎 ,该 
系统 不 仅 要 及 时 响应 大 量 用 户 同时 提出 的 检索 要 求 , 还 要 定期 抓 取 分 散在 世界 各 地 的 Web 
网 页 中 的 信息 并 构建 索引 。 可 想 而 知 ,Google 公司 的 搜索 引擎 系统 需要 构建 一 个 面向 大 规 
模 数 据 处 理 的 并 行 计算 机 系统 。 为 了 满足 这 种 需要 ,Google 公司 在 全 世界 设立 了 几 十 个 数 
据 中 心 。 一 个 数据 中 心 造价 高 达 几 亿美 元 , 耗 电 量 达 几 十 到 上 百 兆 瓦 。 数 据 中 心 多 建 于 水 
资源 充沛 和 电能 廉价 之 地 。 每 个 数据 中 心 是 一 个 由 成 千 上 万 个 普通 PC 组 成 的 集群 系统 。 
图 9.7 给 出 的 是 Google 数据 中 心 内 部 的 集群 系统 。 





图 9.7 Google 数据 中 心 内 部 集群 系统 


典型 的 一 个 数据 中 心 由 几 十 个 机 架 中 的 刀片 式 PC 通过 以 太 网 交换 机 互 连 而 成 。 
图 9. 8 给 出 了 一 个 典型 Google 集群 系统 中 机 架 示意 图 。 

图 9. 8 中 左边 是 插入 机 架 中 的 刀片 式 PC 示意 图 ,中 间 是 一 个 机 架 前 视图 ,右边 是 机 架 
阵列 与 集群 交换 机 。 可 以 看 出 ,机 架 有 若干 槽 组 成 ,可 以 在 槽 中 插入 刀片 式 PC, 每 个 刀片 式 
PC 高 1RU(rack unit) ,机 架 插 槽 分 上 、 下 两 部 分 ,各 有 20 个 插 槽 ,因而 可 以 插 和 人 40 个 刀片 
PC。 机 架 中 部 有 一 个 小 型 以 太 网 交换 机 ,高 度 为 4RU。 每 个 刀片 式 PC 都 是 标准 配置 , 例 
如 ,可 以 内 含 8 个 处 理 器 核 .16 GB 主 存 和 4 个 1TB 磁盘 。 为 了 在 一 个 机 架 中 插 人 更 多 
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图 9.8 Google 集群 系统 中 机 架 的 组 成 


PC,Google 采 用 了 一 种 双 捅 槽 机 架 , 在 1RU 高 的 位 置 上 提供 了 前 、 后 两 个 配置 完全 相同 的 
插 模 ,可 插入 两 个 PC, 因此 ,机 架 的 后 视图 与 前 视图 完全 相同 。 这 样 ,一 个 机 架 就 提供 了 两 
列 PC 插 模 , 一 共 可 容纳 80 个 PC 和 两 个 交换 机 ,两 个 交换 机 之 间 用 1Gb/s 接口 互 连 。 为 了 
便于 散热 ,两 列 PC 中 间 有 一 个 3 英寸 的 空隙 , 它 就 像 一 个 “ 烟 简 一 样 ,使 得 热风 可 以 通过 
机 架 顶 部 的 风扇 排出 。 

图 9. 9 给 出 了 Google 集群 中 机 架 之 间 的 连接 关系 示意 图 。 
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图 9.9 _ Google 集群 机 架 连 接 示意 图 


9.9 显示 了 64 个 机 架 通 过 两 个 128X128 以 太 网 集群 交换 机 互 连 的 示意 图 。 每 个 
128X128 以 太 网 集群 交换 机 可 以 处 理 128 条 1Gb 的 以 太 网 线路 。 因 为 每 个 机 架 有 两 列 PC 
和 两 个 交换 机 ,机 架 中 的 每 个 交换 机 都 通过 一 条 1Gb 的 以 太 网 线路 与 128X128 以 太 网 集 
群 交 换 机 互 连 , 因 此 ,一 个 机 架 有 两 条 1Gb 网 线 与 集群 交换 机 互 连 。 对 于 采用 128X128 以 
太 网 集群 交换 机 连接 的 集群 系统 ,最 多 可 连接 的 机 架 只 能 有 128/2 一 64 个 。 

为 了 保证 在 一 个 交换 机 出 现 问题 的 情况 下 数据 中 心 仍然 能 够 工作 ,通常 会 使 用 宛 余 的 
第 2 个 128X128 以 太 网 集群 交换 机 。 这 样 ,每 个 机 架 有 4 条 1Gb 网 线 与 两 个 交换 机 互 连 ， 
如 图 9.9 所 示 。 图 中 画 出 了 对 角 线 上 的 机 架 ( 加 阴影 ) 与 两 个 集群 交换 机 的 连接 ,其 余 机 架 
的 连 线 未 画 出 。 数 据 中 心 可 以 通过 高 速 传输 线路 (如 OC48 链接 (2488Mby/s) ) 与 互联 网 相 
连 , 而 且 , 数 据 中 心 之 间 也 能 通过 专门 的 高 速 传输 线路 (如 OC12 链接 (622Mb/s)) 相 互 进行 
连接 。 


第 
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9.3.2 网 格 多 计算 机 系统 


网 格 多 计算 机 系统 是 利用 互联 网 把 分 散在 不 同 地 理 位 置 的 多 个 异 构 的 计算 机 组 成 一 台 
人 逻辑 上 的 “虚拟 超级 计算 机 ”。 这 种 网 格 计 算 机 把 每 一 台 参 与 其 中 的 各 类 计算 机 都 作为 自己 
的 一 个 节点 ,成 千 上 万 个 节点 组 合 起 来 ,就 形成 了 一 个 具有 超级 计算 能 力 的 多 计算 机 系统 ， 
以 向 用 户 提供 一 系列 的 服务 。 

要 让 这 些 物理 上 独立 的 位 于 不 同 管理 系统 中 的 异 构 计 算 机 联合 起 来 完成 一 个 任务 , 需 
要 在 不 同 的 管理 系统 上 运行 相应 的 中 间 件 ,以 使 用 户 和 程序 可 以 通过 方便 的 一致 的 方式 访 
问 所 有 资源 。 其 基本 原理 是 ,在 网 格 中 的 每 个 计算 机 中 运行 一 个 特殊 的 程序 ,这 个 程序 可 以 
用 来 管理 计算 机 并 使 计算 机 加 入 到 网 格 中 。 因 此 ,这 个 程序 通常 需要 处 理 用 户 认 证 及 远程 
登录 、 资 源 发 布 与 发 现 、 作 业 调 度 与 分 配 等 。 当 网 格 中 的 某 个 用 户 需要 计算 机 完成 某 个 任务 
时 ,网 格 软件 决定 何 处 有 空闲 的 硬件 ,软件 和 数据 资源 ,然后 将 作业 迁移 到 有 资源 的 计算 机 
处 ,安排 执行 并 收集 处 理 结果 返回 给 用 户 。 

提出 网 格 计算 的 初始 动机 是 共享 CPU 的 时 钟 周期 。 当 时 的 想法 是 , 当 一 个 组 织 或 机 
构 在 某 个 时 间 段 不 需要 使 用 时 ,可 以 将 空闲 的 计算 能 力 提供 出 来 ,以 帮助 其 他 需要 计算 资源 
的 组 织 或 机 构 完 成 相应 的 计算 任务 。 

虽然 网 格 计算 是 一 种 可 靠 的 .具有 较 高 容错 和 容 灾 性 的 系统 ,并 且 可 以 节省 资源 ,实现 
资源 共享 ,但 是 ,网 格 计算 因 为 存在 很 多 不 易 解决 的 问题 而 无 法 广泛 应 用 。 


9.4 向 量 处 理 机 和 SIMD 技术 


SIMD 技术 在 for 循环 处 理 数 组 之 类 的 数据 时 非常 有 效 ,因此 ,为 了 提高 SIMD 技术 的 
并 行 性 ,需要 有 大 量 相同 结构 的 数据 被 同一 种 处 理 逻 辑 进 行 处 理 。 一 般 将 SIMD 技术 称 为 
数据 级 并 行 技术 ,主要 通过 SIMD 指令 处 理 向 量 ,早期 的 阵列 处 理 机 就 是 一 种 SIMD 计算 
机 。 执 行 SIMD 指令 时 能 够 同时 在 很 多 执行 单元 同步 执行 同一 个 操作 ,例如 ,一 条 分 别 对 
16 对 数据 进行 加 操作 的 SIMD 指令 ,可 以 在 16 个 ALU 中 同时 执行 加 运算 。 如 果 一 个 加 运 
算 在 一 个 时 钟 周期 中 完成 , 则 一 个 时 钟 周期 内 可 以 完成 16 对 不 同 数据 的 加 操作 。 

虽然 一 条 SIMD 指令 可 以 对 几 组 或 几 十 甚至 几 百 组 不 同 的 操作 数 同 时 进行 相同 的 操 
作 ,但 是 它 还 是 一 条 指令 ,不 同 执行 单元 中 执行 的 指令 都 是 由 同一 个 PC 所 指向 的 ,只 是 每 
个 执行 单元 所 取 的 操作 数 不 同 ,因而 ,在 SIMD 计算 机 中 ,每 个 执行 单元 都 有 各 自 的 寄存 器 
组 或 局 部 存储 器 ,包括 自己 的 地 址 寄存 器 ,这 样 , 每 个 执行 单元 都 有 不 同 的 数据 地 址 。 

一 个 按 顺 序 执行 的 串 行 应 用 程序 被 编译 后 ,可 能 按 SISD 方式 组 织 并 运行 于 串 行 硬件 
系统 上 ,也 可 能 按 SIMD 方式 组 织 并 运行 于 并 行 硬件 系统 中 。 


9.4.1 向 量 处 理 机 


在 空气 动力 学 .原子 物理 学 、 核 物理 学 .气象 学 和 化 学 等 科学 计算 中 ,涉及 线性 规划 、 傅 
里 叶 变换 ,滤波 计算 以 及 矩阵 .线性 代数 、 偏 微分 方程 积分 等 数学 问题 的 求解 ,这 些 求解 问 
题 大 都 要 求 能 对 大 量 结构 相同 的 数据 进行 高 精度 的 浮 点 运算 。 

为 了 解决 这 些 科 学 计算 问题 ,历史 上 曾 有 一 些 公司 研制 出 超级 (巨型 ) 计 算 机 ,借助 向 量 
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计算 结构 的 数据 并 行 技术 ,它们 可 以 完成 每 秒 钟 上 亿 次 的 运算 。TI 公司 的 ASC(1972 年 ) 
和 CDC 公司 STAR-100(1973 年 ) 是 世界 上 第 一 批 向 量 巨型 计算 机 。 到 1982 年 底 ,世界 上 
约 有 60 台 巨 型 机 ,其 中 大 多 数 是 向 量 处 理 机 (vector computer)。 中 国 于 1983 年 研制 成 功 
的 每 秒 千 万 次 的 757 机 和 每 秒 亿 次 的 “银河 ”机 也 都 是 向 量 处 理 机 。Cray 公司 制造 的 超级 
计算 机 多 属于 这 一 类 向 量 结构 计算 机 。 

向 量 处 理 机 是 面向 向 量 型 数据 的 并 行 计算 机 ,在 向 量 各 分 量 上 执行 的 运算 操作 一 般 都 
是 彼此 无 关 、 各 自 独 立 的 ,因而 可 以 按 多 种 方式 并 行 执 行 , 有 流水 线 方式 和 阵列 方式 两 种 ,大 
多 以 流水 线 结构 为 主 。 主 存储 器 容量 的 大 小 限定 了 机 器 的 解 题 规模 。 向 量 处 理 机 主要 用 于 
求解 大 型 问题 ,必须 具有 大 容量 的 主 存 ,而 且 应 该 是 集中 式 的 公共 存储 器 。 当 高 速 运算 流水 
线 运行 时 ,需要 源源 不 断 地 供给 操作 数 和 取 走 运算 结果 ,还 要 求 主 存 具有 很 高 的 数据 传输 
率 , 否 则 便 不 能 维持 高 速 运算 ,因此 ,多 采用 多 个 端口 同时 读 取 的 交叉 多 模块 存储 器 。 

向 量 处 理 机 主要 采用 先行 控制 和 重 又 操作 技术 .运算 流水 线 、 多 模块 交叉 访问 的 并 行 存 
储 器 等 并 行 处 理 结构 ,从 而 能 提高 运算 速度 。 向 量 型 数据 并 行 计算 与 流水 线 结构 相 结 合 ,能 
在 很 大 程度 上 克服 通常 流水 线 计算 机 中 指令 处 理 量 太 大 、 存 储 访问 不 均匀 、 相 关 阻 塞 严重 、 
流水 不 畅 等 缺点 ,并 可 充分 发 挥 并 行 处 理 结构 的 潜力 ,显著 提高 运算 速度 。 

下 面 通过 一 个 简单 例子 来 说 明 向 量 处 理 与 标量 处 理 的 差别 。 先 考察 一 个 C 语言 循环 
语句 ， 

for(i=0; i<64; i++) c[il=a[il]+b[il7 
对 于 该 循环 语句 ,在 普通 的 标量 处 理 计算 机 中 ,需要 用 一 段 循环 执行 的 指令 序列 来 实现 。 例 


如 ,在 MIPS 机 器 上 对 应 的 指令 序列 如 下 ,其 中 ,假定 i 被 分 配 在 $s0, 数 组 a、b、c 的 首 地 址 
分 别 在 $ sl、$ s2、$ s3 中 ,数组 元 素 为 int 类 型 。 


loop: slti $t, $s0,64 #if i<64, $t0=1; if i>=64, $t0=0 
beq $t0, $zero, exit #if $t0=0, jump to exit 
sll $t0, $s0, 2 #iX4 
addu $si, $s1i, $t0 # 计 算 a[i] 的 地 址 
1w $t1, 0($s1) # 将 a[i] 取 到 Stl 中 
addu $s2, $s2, St0 # 计 算 b[i] 的 地 址 
1w $t2, 0($s2) # 将 b[i] 取 到 St2 中 
add St37 St1, $t2 # 计 算 a[i]+b[i] 
addu $s3, $s3, $t0 # 计 算 c[i] 的 地 址 
sw $t3, 0($s3) # 将 a[i]+b[i] 的 值 友人 c[i] 
addi $s0，$s0，1 # 立 = 立 + 1 
j loop 


exit: 


显然 ,上 述 程 序 在 一 般 的 标量 计算 机 中 运行 时 ,大 约 需 要 运行 768 条 指令 。 

如 果 一 个 向 量 处 理 机 支持 32 个 向 量 寄存 器 (假定 用 MIPS 寄存 器 名 称 前 加 v 表示 ) ,每 
个 寄存 器 能 够 存放 64 个 32 位 宽 的 数据 字 ,一 条 装 和 人 /存储 指令 (假定 分 别 为 v_ lw 和 v_sw) 
可 以 从 内 存 连 续 256 个 单元 装 人 数据 到 一 个 向 量 寄存 器 或 将 向 量 寄存 器 内 容 存 到 内 存 连续 
单元 中 ,一 条 运算 指令 (加 法 指令 假定 为 v_add) 可 以 同时 对 两 个 向 量 寄存 器 中 的 64 个 32 
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位 字 进 行 并 行 计 算 ,并 将 结果 存 到 另 一 个 向 量 寄存 器 , 则 上 述 C 语言 循环 程序 段 对 应 的 指 
令 序列 如 下 。 


Vlw Sy El ONS aL) # 将 a[0] 到 a[63] 取 到 $v_tl 中 
vlw S$vt2,0($s2) # 将 b[0] 到 b[63] 取 到 $v_t2 中 
vadd S$vt3, $v tl, $v t2  # 计 算 a[il+b[i], 存 到 $v_t3 中 
vsw $vt3,0($s3) # 将 a[i]+b[i] 的 值 存 到 c[i] 中 


对 于 同样 的 C 语言 循环 程序 段 , 在 向 量 处 理 机 上 对 应 的 指令 只 有 4 条。 显然 ,对 于 循 
环 中 的 数组 操作 ,向 量 处 理 机 比 标量 处 理 机 的 执行 效率 要 高 得 多 。 首 先 ,标量 处 理 机 中 的 
700 多 条 指令 ,每 一 条 都 有 取 指 令 和 译 码 ,而 向 量 处 理 机 中 只 有 4 条 指令 要 取 指 令 和 译 码 ; 
其 次 ,标量 处 理 机 中 加 法 指令 的 执行 是 串 行 的 ,而 向 量 处 理 机 中 加 法 指令 的 执行 是 并 行 的 。 
此 外 ,标量 处 理 机 中 的 数据 相关 (如 Load-use 冒险 等 ) 会 影响 流水 线 的 执行 ,而 向 量 处 理 机 
的 流水 线 中 ,只 可 能 在 每 个 向 量 数据 的 开始 处 发 生 阻塞 ,而 在 随后 的 所 有 数据 都 不 会 发 生 流 
水 线 阻 塞 。 即 使 标量 处 理 机 采用 循环 展开 技术 来 降低 阻塞 次 数 ,也 比 向 量 处 理 机 中 的 阻塞 
现象 要 严重 。 

上 述 例子 给 出 的 是 整数 运算 ,通常 向 量 处 理 机 都 是 进行 浮 点 数 运算 。 对 于 浮 点 数 的 向 
量 运算 ,其 原理 和 整数 向 量 运算 是 一 样 的 。 


9.4.2 Intel 架构 中 的 SIMD 技术 


在 多 媒体 应 用 中 ,图 形 、 图 像 、 视 频 和 音频 处 理 存在 大 量具 有 共同 特征 的 操作 。 例 如 ， 
8 位 的 图 像 像素 、16 位 的 音频 信和 号 等 都 可 以 同时 进行 某 种 操作 ,这 些 都 涉及 短 整 数 类 型 的 并 
行 操作 ;在 FIR 滤波 和 矩阵 运算 中 需要 频繁 的 乘法 累加 操作 ;快速 傅 里 时 变换 (FFT) 和 离 
散 余 弦 变 换 (DCT) 中 涉及 短 数据 的 高 度 循环 运算 ;三 维 图 形 和 视频 压缩 中 涉及 计算 密集 型 
的 算法 等 。 

为 提高 上 述 这 些 共 性 操作 的 运算 能 力 ,Intel 公司 在 IA-32 指令 系统 基础 上 设计 了 一 套 
新 增 指 令 集 , 并 对 CPU 内 部 结构 进行 了 扩充 与 改进 , 称 为 MMX 技术 。MMX 技术 于 1997 
年 首次 运用 于 P54C Pentium 处 理 器 , 称 之 为 多 能 奔腾 ,共有 57 条 指令 。 

MMX 技术 中 引入 了 新 的 数据 类 型 和 通用 寄存 器 , 主要 数据 类 型 为 定点 紧缩 Cpacked) 
整数 ,有 以 下 4 种 新 的 64 位 数据 类 型 : 8 个 字 节 、4 个 字 ( 每 字 16 位 )、 两 个 双 字 和 一 个 
64 位 的 四 字 。 为 便于 MMX 指令 对 上 述 数 据 类 型 进行 操作 ,CPU 中 新 增 了 8 个 64 位 通用 
寄存 器 MX0~ 一 MX7。 这 些 寄存 器 可 用 来 实现 数据 运算 ,但 不 能 用 于 存储 器 寻 址 。 单 条 指令 
同时 并 行 处 理 多 个 数据 元 素 , 如 8 个 字 节 ,或 4 个 字 , 或 两 个 双 字 ,或 一 个 64 位 的 四 字 ,这 对 
提高 运算 速度 非常 有 利 。 例 如 ,一 条 指令 可 以 同时 完成 图 像 中 8 个 像素 的 并 行 操作 。 

随 着 网 络 、 通 信 、 语 音 、 图 形 、 图 像 . 动 画 和 音 / 视 频 等 多 媒体 处 理 软件 对 处 理 咒 性 能 越 来 
越 高 的 要 求 ，Intel 在 多 能 奔腾 以 后 的 处 理 器 中 加 入 了 更 多 流 式 SIMD 扩展 (SSE) 指 令 集 ， 
包括 SSE、SSE2、SSE3、SSSE3、SSE4 等 ,这 些 都 是 典型 的 数据 级 并 行 处 理 技术 。 

SSE 指令 集 最 早 是 1999 年 Intel 公司 在 Pentium 亚 处 理 器 中 推出 的 ,包括 了 70 条 指 
令 , 其 中 包含 提高 3D 图 形 运 算 效率 的 50 条 SIMD 浮 点 运算 指令 、12 条 MMX 整数 运算 增 
强 指令 和 8 条 优化 内 存 中 连续 数据 块 传输 指令 。 理 论 上 这 些 指令 对 图 像 处 理 、 浮 点 运算 、 
3D 运算 ,视频 处 理 、 音 频 处 理 等 诸多 多 媒体 应 用 起 到 全 面 强化 的 作用 。SSE 兼容 MMX 指 
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令 , 它 可 以 通过 SIMD 技术 在 单 时 钟 周期 内 并 行 处 理 4 个 单 精度 浮 点 数据 来 有 效 地 提高 浮 
点 运算 速度 。 

2001 年 Intel 公司 在 Pentium 4 中 发 布 了 一 套 包 括 144 条 新 指令 的 SSE2 指令 集 ,提供 
了 浮 点 SIMD 指令 ,整数 SIMD 指令 、 浮 点 数 和 整数 之 间 转 换 等 指令 。SSE2 增加 了 能 处 理 
128 位 整数 和 同时 并 行 处 理 两 个 64 位 双 精 度 浮 点 数 的 指令 。 为 了 更 好 地 利用 高 速 缓存 ,还 
新 增 了 几 条 缓存 指令 ,人 允许 程序 员 控制 已 经 缓存 过 的 数据 。 

2004 年 初 Intel 公司 在 新 款 Pentium 4(P4E,Prescott 核心 ) 处 理 器 中 发 布 了 SSE3， 
2005 年 4 月 AMD 公司 也 发 表 具 备 部 分 SSE3 功效 的 处 理 器 Athlon 64, 此 后 的 x86 处 理 器 
几乎 都 具备 SSE3 的 新 指令 集 功 能 。SSE3 新 增 了 13 条 指令 ,其 中 一 条 用 于 视频 解码 ,两 条 
用 于 线程 同步 ,其 余 用 于 复杂 的 数学 运算 、 浮 点 数 与 整数 之 间 的 转换 以 及 SIMD 浮 点 运算 
使 处 理 器 对 DSP 及 3D 处 理 的 性 能 大 为 提升 。 此 外 ，SSE3 针对 多 线程 应 用 进行 优化 ,使 处 
理 器 原 有 的 超 线程 功能 获得 了 更 好 发 挥 。 

2005 年 ,作为 SSE3 指令 集 的 补充 版 本 ,SSSE3 出 现在 酷 害 微 架构 处 理 器 中 ,新 增 16 条 
指令 ,进一步 增强 了 CPU 在 多 媒体 、 图 形 图 像 和 Internet 等 方面 的 处 理 能 力 。 

2008 年 SSE4 指令 集 发 布 , 它 被 视 为 最 重要 的 多 媒体 扩展 指令 集 架构 改进 方式 ,将 延续 
了 多 年 的 32 位 架构 升级 至 64 位 。SSE4 增加 了 54 条 指令 ,其 中 SSE4. 1 指令 子 集 包 含 
47 条 指令 ,SSE4. 2 包含 7 条 指令 。SSE4. 1 主要 针对 向 量 绘图 运算 .3D 游戏 加 速 、 视 频 编 
码 加 速 及 协同 处 理 加 速 等 方面 ,此 外 ,还 加 入 了 6 条 浮 点 运算 增强 指令 ,这 使 得 图 形 泻 染 处 
理性 能 和 3D 游戏 效果 等 得 到 极 大 提升 。 除 此 之 外 ,SSE4. 1 指令 集 还 加 入 了 串 流 式 负载 指 
令 , 可 提高 图 形 帧 缓冲 区 的 数据 读 取 频 宽 ,理论 上 可 获取 完整 的 缓存 行 , 即 单 次 读 取 64 位 而 
非 原来 的 8 位 。SSE4. 2 主要 针对 字符 串 和 文本 处 理 。 例 如 ,对 XML 应 用 进行 高 速 查找 及 
对 比 ,在 Web 服务 器 应 用 等 方面 有 显著 的 性 能 改善 。 

下 面 用 一 个 简单 的 例子 来 比较 普通 指令 与 数据 级 并 行 指令 的 执行 速度 。 为 了 使 比较 结 
果 尽 量 不 受 访 存 操 作 的 影响 ,以 下 例子 中 的 运算 操作 数 主要 是 寄存 器 操作 数 。 此 外 ,为 了 使 
比较 结果 尽量 准确 ,例子 中 设置 了 较 大 的 循环 次 数值 ,为 0x4000000 二 2”。 例 子 只 是 为 了 说 
明 指令 执行 速度 的 快慢 ,并 没有 考虑 结果 是 否 溢出 。 

图 9. 10 给 出 了 采用 普通 指令 的 累加 函数 dummy_add 对 应 的 汇编 代码 ,其 中 粗 体 字 部 
分 为 循环 体 ,循环 控制 指令 loop 执行 时 , 先 检测 寄存 器 ECX 的 内 容 , 若 为 0 则 退出 循环 , 否 
则 ECX 的 内 容 减 1, 并 再 次 进入 循环 体 的 第 一 条 指令 开始 执行 ,循环 体 的 第 一 条 指令 地 址 
由 loop 指令 指出 。 


080484f0 <dummy_add>: 
80484f0: 55 push sebPp 





80484f1: 89 e5 mov Sesp, $ebp 

80484f3: b9 00 00 00 04 mov $0x4000000, ®ecx 
80484f8: b0 01 mov $0xl1, %®al 

80484fa: b3 00 mov $0x0, ®bl 

80484fc: 00 c3 add S$%al, %bl 

80484fe: e2 fc loop 80484fc <dummy add+0xc> 


8048500: 5d pop sebp 
8048501: c3 rot 











图 9.10 采用 普通 指令 的 累加 函数 
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图 9.11 给 出 了 采用 SSE 数据 级 并 行 指 令 的 累加 函数 dummy_add_sse 对 应 的 汇编 代 
码 , 其 中 粗 体 字 部 分 为 循环 体 。 








08048510 <dummy_add sse>: 

8048510 : 55 push sebp 

8048511: b8 00 9d 04 10 mov $0x10049d00, %eax 
8048516: 89 e5 mov Sesp, $%ebp 
8048518: 53 push Sebx 

8048519 : bb 20 9d 04 14 mov $0x14049d20, %ebx 
804851e: b9 00 00 40 00 mov $0x400000, ®%ecx 
8048523: 66 0f 6f 00 movdqa ($eax) ， gxmm0 
8048527: 66 0f 6f 0b movdqa (%ebx), %xmml 
804852b: 66 0f fc c8 paddb %xmm0, %xmml 
804852f: e2 fa loop 804852b <dummy_add_ sse+0x1lb> 
8048531; 5b pop Sebx 

8048532: 5d pop sebp 

8048533: c3 ret 





9.11 采用 SSE 指令 的 累加 函数 


从 图 9. 10 可 看 出 ,dummy_add 函数 中 ,每 次 循环 只 完成 一 个 字 节 的 累加 ,而 在 图 9. 11 
所 示 的 dummy_add_sse 函数 中 ,每 次 循环 执行 的 指令 为 “paddb %xmm0,%xmm1l1”, 即 每 次 
循环 并 行 完成 两 个 XMM 寄存 器 中 的 16 个 一 字 节 数据 的 累加 ,对 于 与 dummy_add 同样 的 
工作 量 , 循 环 次 数 应 为 其 1/16, 即 (0x4000000 六 4) 王 0x400000 王 22 ,因而 ,可 以 预期 它 所 用 
的 时 间 大 约 只 有 dummy_add 的 1/16。 

在 某 相 同 环境 下 测试 两 个 函数 的 执行 时 间 ,dummy_add 所 用 时 间 约 为 22. 643816s, 而 
dummy_add_sse 所 用 时 间 约 为 1. 411588s ,前 者 是 后 者 的 大 约 16. 041378 倍 。 这 与 预期 的 
结果 一 致 。 

dummy_add_sse 函数 中 用 到 的 SSE 指令 有 两 种 ,除了 paddb 以 外 ,还 有 一 种 是 movdqa 

令 , 它 的 功能 是 将 双 四 字 (128 位 ) 从 源 操作 数 处 移 到 目标 操作 数 处 。 该 指令 可 用 于 在 
XMM 寄存 器 与 128 位 存储 单元 之 间 移 人 /移出 双 四 字 , 或 在 两 个 XMM 寄存 器 之 间 移 动 。 
该 指令 的 源 操作 数 或 目标 操作 数 是 存储 器 操作 数 时 ,操作 数 必须 是 16 字 节 边界 对 齐 ,否则 
将 发 生 一 般 保护 性 异常 (GP)。 若 需要 在 未 对 齐 的 存储 单元 中 移入 /移出 双 四 字 , 可 以 使 用 
movdqu 指令 。 更 多 有 关 SSE 指令 集 的 内 容 请 参看 Intel 公司 的 相关 资料 。 

Intel 公司 在 SSE 指令 集 的 基础 上 又 推出 了 全 新 的 指令 扩展 集 AVX(Advanced Vector 
Extensions) 。AVX 是 在 之 前 SSE 指令 集 的 128 位 基础 上 扩展 到 256 位 的 SIMD 技术 , 同 
时 数据 传输 率 也 相应 进行 了 提升 ,所 以 ,从 理论 上 看 ,CPU 内 核 的 浮 点 运算 性 能 提升 为 原来 
的 两 倍 。 


9.4.3 GPU 架构 


Intel 微 处 理 器 的 MMX、SSE 以 及 AVX 等 采用 SIMD 技术 的 指令 集 主 要 是 为 了 针对 
向 量 绘图 运算 .3D 游戏 加 速 , 视 频 编码 加 速 及 协同 处 理 加 速 等 图 形 处 理 能 力 的 增强 而 提出 
的 。 但 是 ,CPU 并 不 是 专用 于 进行 图 形 处 理 的 ,这 些 SIMD 指令 也 是 在 现 有 的 x86 指令 系 
统 中 增加 的 ,因此 , 随 着 计算 机 游戏 产业 的 不 断 发 展 ,原来 主要 由 CPU 进行 图 形 处 理 的 方 
式 不 再 适应 ,需要 有 一 个 功能 强大 的 部 件 专 门 进 行 图 形 处 理 ,这 个 部 件 就 是 GPU(Graphics 
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Processing Unit) 芯片 。 

GPU 可 以 和 CPU 配合 使 用 ,这 就 是 CPU 十 GPU 的 异 构 系 统 ,其 中 CPU 用 于 通用 处 
理 ,而 GPU 专门 用 于 图 形 处 理 , 例 如 ,3D 图 形 的 绘制 ,着色 和 泻 染 等 。 描 述 图 形 的 基本 数 
据 主要 是 顶点 或 像素 ,顶点 由 (Cz,y,z,'z) 坐 标 值 来 表示 ,像素 则 由 (red, green,blue,alpha) 
颜色 值 来 表示 。 坐 标 值 通常 是 用 单 精 度 浮 点 数 表示 ,而 颜色 值 可 用 整数 表示 ,因此 ,GPU 需 
要 有 针对 整数 和 浮 点 数 的 运算 部 件 ,而且 对 于 图 形 处 理 任务 来 说 ,存在 大 量 的 数据 级 并 行 。 
在 Intel 架构 的 早期 计算 机 系统 中 ,CPU 与 GPU 一 般 经 北桥 芯片 通过 AGP 总 线 或 PCI- 
Express 总 线 连接 ,各 自 有 独立 的 存储 器 ,分 别 是 主 存 和 显示 存储 器 (简称 为 显存 ) 。 在 有 些 
芯片 组 中 使 用 的 集成 GPU 没有 独立 的 显存 芯片 ,而 是 直接 从 主 存 中 分 出 一 块 区 域 作 为 显 
存 。AMD 公司 和 Intel 公司 都 提出 了 CPU 和 GPU 融合 技术 ,直接 将 CPU 和 GPU 通过 
QPI 或 HT 总 线 连接 并 集成 在 一 个 芯片 内 。 

自从 1999 年 NVIDIA 公司 发 布 第 一 款 GPU 以 来 ,GPU 得 到 了 快速 发 展 。 为 了 实时 
生成 逼真 的 3D 图 形 ,GPU 不 仅 采用 了 最 先进 的 半导体 制造 工艺 ,而 且 在 设计 上 也 不 断 创 
新 。 早 期 GPU 主要 用 于 3D 图 形 演 染 等 图 形 处 理 ,但 是 , 随 着 以 CUDA 为 代表 的 GPU 通 
用 计算 API 的 普及 ,GPU 的 应 用 领域 得 到 了 极 大 的 拓展 ,被 广泛 应 用 于 石油 勘测 、 天 文 计 
算 .流体 力学 模拟 、 分 子 动力 学 仿真 .生物 计算 等 科学 计算 领域 ,并 在 很 多 应 用 中 获得 了 几 十 
们 ,乃至 上 百倍 的 加 速 比 。 因 此 ,GPU 的 含义 也 从 原来 专门 的 图 形 处 理 器 转变 为 GPGPU 
(General-Purpose computing on GPU)。GPGPU 计算 通常 采用 CPU 十 GPU 的 异 构 模式 ， 
由 CPU 负责 执行 复杂 逻辑 处 理 和 事务 管理 等 不 适合 数据 并 行 的 计算 ,而 GPU 负责 计算 密 
集 型 的 大 规模 数据 并 行 计算 。 

下 面 以 NVIDIA 公司 的 Tesla 架构 为 例 来 说 明 GPU 的 大 致 结构 。Tesla 架构 GPU 由 
两 部 分 组 成 ,分 别 是 流 处 理 器 阵列 (Streaming Processor Array,SPA) 和 存储 控制 系统 。 两 
部 分 通过 一 个 片上 互连网 络 连接 。 流 处 理 器 阵列 和 存储 控制 系统 都 可 以 独立 扩展 ,其 规格 
可 以 根据 市 场 定位 进行 裁剪 。 例 如 ,基于 GT200b 芯片 的 产品 中 ,GTX285 的 SPA 中 包含 
10 个 线程 处 理 器 群 (Thread Processor Cluster,TPC) 和 8 个 存储 控制 器 ,而 价格 较 低 的 
GTX260 十 则 只 有 9 个 TPC 和 ?7 个 存储 控制 器 。 

GPU 中 的 存储 控制 系统 包括 存储 控制 器 .光栅 操作 单元 (Raster Operation Processor， 
ROP) 和 二 级 纹理 缓存 。 存 储 控制 器 用 于 控制 片 外 的 DRAM 显存 ,ROP 则 对 存储 器 内 的 数 
据 进 行 颜色 和 深度 操作 ,通过 片上 互 连 总 线 ,SPA 可 以 将 计算 得 到 的 深度 和 颜色 信息 发 送 
给 ROP, 也 可 以 直接 读 写 DRAM 显存 ,或 者 通过 纹理 cache 以 只 读 的 方式 访问 DRAM 
显存 。 

图 9.12 所 示 的 是 NVIDIA 公司 的 Tesla 架构 GT200 系统 结构 。 一 个 TPC 包含 3 个 
流 多 处 理 器 SM, 每 个 TPC 共享 L1 纹理 cache 和 L2 指令 及 常数 cache。 存 储 控制 系统 中 
包含 256KB 的 L2 纹理 cache 以 及 8 个 GDDR3 存储 控制 器 和 一 个 PCI-Express 2.0X16 
总 线 接口 。 每 个 GDDR3 存储 控制 器 可 以 连接 64 位 (8B) 宽 的 速度 为 2.2GT/s 的 GDDR3 
显示 存储 器 。 

每 个 SM 就 是 一 个 计算 核心 ,图 9. 13 给 出 了 NVIDIA GT200 SM 的 内 部 结构 。 如 
图 9. 13 所 示 ,一 个 SM 包含 8 个 标量 流 处 理 器 (Stream Processor,SP) 以 及 其 他 计算 单元 ， 
如 特殊 功能 部 件 (Special Function Unit, SFEU ) 和 双 精 度 单 元 (Double Precision Unit， 
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图 9. 12 GT200 系统 结构 


DPU) ,SFU 用 于 执行 一 些 特殊 的 指令 ,包括 超越 函数 ,插值 .倒数 平方根 倒 数 .正弦 ,余弦 
以 及 其 他 特殊 运算 ;DPU 用 于 64 位 双 精 度 浮 点 数 和 64 位 整数 的 乘 加 运算 。 
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图 9.13 NVIDIA GT200 的 SM 内 部 结构 


通常 称 GPU 为 众 核 (many core) 处 理 器 ,是 因为 通常 的 商业 宣传 中 ,GPU 被 称 为 拥有 
上 百 个 “ 核 ”, 这 里 的 “ 核 " 是 指 SP, 例 如 ,GTX285 的 核心 数 为 10X3X8 王 240。 实 际 上 SP 
仅 是 执行 单元 , 它 不 是 一 个 能 完整 地 进行 取 指 、 译 码 、 指 令 分 派 和 处 理 的 真正 的 处 理 核心 ,而 
SM 具有 取 指 、 指 令 译 码 和 指令 分 派 等 处 理 功 能 ,属于 同一 个 SM 的 所 有 SP 共用 同一 套 指 
令 前 端 处 理 部 件 ,也 共用 同一 个 共享 存储 器 。 

从 图 9. 13 可 以 看 出 ,每 个 SM 相当 于 具有 8 条 流水 线 的 SIMD 处 理 器 核心 ,所 有 SP 共 
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享 SM 中 的 一 个 指令 处 理 前 端 ,因而 一 个 SP 类 似 于 多 线程 CPU 中 的 一 条 流水 线 , 因 此 SP 
也 称 为 线程 处 理 器 (Thread Processor,TP) 。 每 个 SP 核 包 含 标量 的 单 精度 浮 点 数 处 理 单元 
和 整数 处 理 单元 ,这 些 单 元 可 以 实现 大 部 分 运算 指令 。 每 个 SP 核 支 持 硬件 多 线程 ,最 多 可 
并 发 执行 64 个 线程 ,都 有 各 自私 有 的 通用 寄存 器 组 (Register File, RF) ,每 个 SP 有 1024 个 
32 位 通用 寄存 器 ,根据 SP 所 分 配 的 线程 数 来 分 配 寄存 器 。 程 序 会 声明 其 寄存 器 需求 ,通常 
编译 器 会 为 每 个 线程 分 配 16 一 64 个 寄存 器 。 例 如 ,对 于 像素 泻 染 程序 通常 使 用 16 个 或 更 
少 的 寄存 器 ,这 样 ,每 个 SP 可 以 运行 高 达 64 个 像素 泻 染 线程 。 

SM 的 执行 模型 实际 上 与 传统 的 SIMD 有 很 大 区 别 ,NVIDIA 公司 称 其 为 单 指令 多 线 
程 (Single Instruction and Multiple Thread,SIMT) 。 在 传统 的 SIMD 架构 上 编程 时 ,每 条 
指令 能 够 处 理 的 数据 宽度 是 确定 的 , 即 向 量 的 宽度 是 显 式 的 ,而 在 基于 NVIDIA GPU 的 
CUDA 编程 中 ,线程 的 数量 是 可 变 的 ,因为 每 个 SM 包含 8 个 SP, 每 个 SP 最 多 有 64 个 线 
程 ,所 以 一 个 SM 上 最 多 可 以 有 512 个 线程 , 即 线程 数 可 以 在 1 一 512 之 间 取 值 ,因而 提高 了 
灵活 性 。 此 外 ,在 传统 的 SIMD 中 ,各 个 向 量 共享 寄存 器 资源 ,并 且 在 一 条 SIMD 指令 中 不 
要 考虑 同步 问题 ,因为 数据 之 间 是 相互 独立 的 ;而 使 用 SIMT 方式 编程 时 ,必须 引入 共享 存 
储 器 和 同步 机 制 实现 线程 之 间 的 通信 。 


9.5 并 行 处 理 编程 模式 简介 


一 个 应 用 问题 要 放 到 并 行 处 理 系统 中 处 理 ,程序 员 首先 应 该 分 析 应 用 问题 中 存在 的 并 
行 性 ,充分 挖掘 出 算法 中 的 并 行 处 理 逻 辑 ,然后 用 相应 的 并 行 编程 模式 以 及 并 行程 序 设 计 语 
言 来 实现 算法 。 

按照 应 用 的 计算 特征 ,可 以 将 应 用 问题 分 为 以 下 3 种 类 型 : 数据 密集 型 (data- 
intensive) 应 用 , 即 数据 量 巨 大 ,但 计算 相对 简单 的 应 用 问题 ,如 海量 网 页 词 频 统计 问题 ; @ 
计算 密集 型 (computation-intensive) 应 用 , 即 数据 量 相 对 不 大 ,但 计算 较为 复杂 的 应 用 问题 ; 
@ 数 据 密集 与 计算 密集 混合 型 应 用 问题 ,如 3D 电影 泻 染 等 。 

针对 不 同 特点 的 应 用 问题 和 不 同 的 并 行 处 理 结构 ,可 以 有 不 同 的 并 行 处 理 编 程 模式 以 
及 并 行程 序 设 计 语 言 ,主要 分 为 以 下 几 种 并 行 处 理 程序 设计 方式 。 

1. 共享 存储 变量 方式 

这 种 并 行程 序 设计 方式 用 于 共享 存储 器 多 处 理 机 系统 中 ,采用 共享 存储 变量 的 方式 进 
行 数据 交互 ,因此 称 为 共享 存储 变量 (shared memory variables) 方 式 。 该 方式 通常 将 一 个 
任务 分 解 成 若干 个 处 理 逻 辑 段 ,每 个 处 理 逻 辑 段 称 为 一 个 线程 。 线 程 之 间 可 以 并 行 执行 ,不 
同 线程 之 间 通 过 共享 存储 变量 的 方式 进行 数据 的 交换 。 因 此 ,也 称 为 多 线程 并 行程 序 设计 
四起 < 

多 线程 并 行程 序 设计 的 概念 提出 以 来 ,出 现 了 很 多 代表 性 的 并 行 编程 接口 ,包括 一 些 开 
源 或 商业 版 本 的 并 行 编程 接口 ,常用 的 有 Pthread、OpenMP 和 Intel TBB 等 。 

Pthread 是 较为 低层 的 多 线性 编程 接口 。 为 实现 可 移植 的 多 线程 程序 ,IEEE 1003. lc 标准 
定义 了 一 个 线程 包 , 称 为 Pthread。 它 使 用 常规 语言 编程 方式 ,通过 在 串 行程 序 中 加 入 
Pthread 函数 调用 来 实现 多 线程 并 行 处 理 。Pthread 中 共有 60 多 个 函数 调用 ,其 中 ,Pthread 
_create 函数 用 于 创建 一 个 新 线程 , 当 一 个 线程 完成 分 配给 它 的 工作 后 ,可 以 用 Pthread_exit 
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函数 来 终止 它 并 释放 它 的 栈 。 所 有 Pthread 线程 都 含有 一 个 线程 标识 符 、 一 组 寄存 器 (包括 
程序 计数 器 PC) 和 一 组 存储 在 结构 (struct) 类 型 变量 中 的 属性 ,这 些 属 性 包括 栈 大 小 .调度 
参数 以 及 线程 需要 的 其 他 信息 。 

OpenMP 采用 在 编程 语言 中 增加 编译 指导 指令 的 方式 来 实现 并 行程 序 设 计 , 通 过 在 串 
行程 序 中 插入 编译 指导 语句 或 命令 来 指示 哪个 程序 段 可 以 并 行 执行 。 例 如 ,对 于 一 个 
C/C++ 语言 的 for 循环 程序 段 , 如 果 循 环 体 可 以 并 行 执行 ,那么 ,就 在 for 语句 前 加 入 编译 
指导 语句 “# pragma omp parallel for”, 用 来 告诉 编译 器 将 后 面 的 for 语句 编译 成 一 段 多 线 
程 并 行 代码 ,在 编译 指导 语句 中 需要 指定 并 行 执行 的 线程 个 数 、 线 程 中 的 私有 变量 、 对 哪个 
变量 进行 规约 以 及 如 何 规约 等 信息 。OpenMP 中 还 提供 了 一 些 API 函数 ,包括 运行 环境 设 
置 函 数 、 锁 操作 函数 和 时 间 操 作 函 数 等 。 

2. 消息 传递 方式 

这 种 并 行程 序 设计 方式 用 于 分 布 式 存储 器 访问 的 并 行 处 理 系统 ( 如 和 集群) 中。 为 了 实现 
多 个 子 任务 的 并 行 处 理 , 在 不 同 计算 节点 上 完成 的 子 任务 之 间 需 要 交换 数据 。 但 是 ,因为 采 
用 分 布 式 存储 访问 , 某 个 计算 节点 无 法 通过 执行 LOAD 指令 和 STORE 指令 来 访问 另 一 个 
节点 的 私有 存储 器 ,因此 ,无 法 通过 共享 存储 变量 的 方式 来 交换 数据 ,只 能 通过 消息 传递 
(message passing) 方 式 进行 数据 的 交换 。 显 然 , 这 种 方式 下 ,每 个 子 任务 作为 一 个 进程 在 各 
自 独立 的 计算 节点 上 并 行 执行 ,因此 ,消息 传递 方式 也 可 以 被 狭义 地 理解 为 多 进程 并 行程 序 
设计 方式 。 

最 常用 的 消息 传递 程序 设计 方式 是 MPI(Message Passing interface ,消息 传递 接口 ) 标 
准 。MPI 是 1993 年 由 一 组 来 自 大 学 、 国 家 实验 室 以 及 高 性 能 计算 厂商 的 研究 人 员 发 起 和 
组 织 的 项 目 ,1994 年 公布 了 最 早 的 版 本 MPI 1. 0。MPI 使 用 常规 语言 编程 方式 ,通过 在 串 
行程 序 中 加 入 MPI 并 行 编程 接口 函数 实现 多 进程 并 行 处 理 , 所 有 计算 节点 运行 同一 个 程 
序 ,在 并 行程 序 段 部 分 ,不 同 的 计算 节点 处 理 不 同 的 数据 ,通过 专门 的 API 函数 实现 不 同 节 
点 间 的 消息 传递 。 最 基本 的 MPI 函数 包括 MPI_ Init、MPI_ Finalize、MPI_Comm_Size、MPI 
_Comm_Rank、MPI_Send 和 MPI_Recv。 在 函数 MPI_Init 和 MPI_Finalize 之 间 的 是 一 个 
并 行程 序 段 ,将 在 每 个 计算 节点 上 被 执行 ;函数 MPI_Comm_Size 确定 指定 范围 内 的 计算 节 
点 /进程 数目 ;函数 MPI_Comm_Rank 确定 计算 节点 /进程 的 标识 号 ;函数 MPI_Send 和 
MPI_Recv 用 于 同步 通信 ,在 不 同 的 节点 之 间 传 递 消息 。MPI 具有 高 度 的 可 扩展 性 ,能 充分 
利用 系统 的 硬件 资源 ,发 挥 其 性 能 ,被 广泛 应 用 于 科学 计算 的 各 个 领域 。 

3. MapReduce 并 行程 序 设 计 方式 

MapReduce 最 早 是 由 Google 公司 研究 提出 的 一 种 面向 大 规模 数据 处 理 的 并 行 处 理 模 
式 和 方法 。 利 用 MapReduce, 可 以 构建 一 个 由 普通 商用 服务 器 构成 的 .包含 数 十 、 数 百 甚至 
数 千 个 节点 的 基于 集群 的 高 性 能 并 行 计算 平台 。 

MapReduce 是 一 个 并 行 计算 软件 框架 , 它 能 自动 完成 计算 任务 的 并 行 化 处 理 , 自 动 划 
分 计算 数据 和 计算 任务 ,在 集群 节点 上 自动 分 配 和 执行 任务 ,自动 收集 计算 结果 ,将 数据 分 
布 存储 数据 通信 容错 处 理 等 并 行 处 理 涉及 的 很 多 底层 的 复杂 细节 交 由 分 布 式 文件 系统 处 
理 , 大 大 减轻 了 程序 员 的 负担 。 

MapReduce 也 是 一 个 并 行程 序 设计 模型 与 方法 ,借助 于 函数 式 程序 设计 语言 Lisp 的 
设计 思想 , 它 提供 了 一 种 简便 的 并 行程 序 设计 方法 ,程序 员 仅 需要 编程 实现 Map 和 Reduce 
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两 个 基本 操作 接口 就 可 以 快速 完成 并 行 化 程序 的 设计 。Map 操作 主要 负责 对 一 组 数据 记 
录 进 行 某 种 重复 处 理 ,Reduce 操作 主要 负责 对 Map 操作 的 中 间 结 果 进 行 某 种 规约 并 输出 
结果 。 一 个 计算 节点 进行 一 个 Map 或 一 个 Reduce 操作 ,因此 ,可 以 同时 有 很 多 节点 同时 进 
行 Map 或 Reduce 操作 。 

4. CUDA 并 行程 序 设 计 方 式 

CUDA(Computer Unified Device Architecture) 由 NVIDIA 公司 在 2007 年 发 布 , 是 用 
于 众 核 GPU 十 多 核 CPU 的 异 构 系 统 的 C/C++ 语言 的 可 扩展 并 行 编程 模型 。 有 了 CUDA 
编程 模型 以 后 ,GPU 除了 用 于 图 形 处 理 以 外 ,还 可 以 方便 地 通过 CUDA 编程 用 于 其 他 应 用 
领域 。 

CUDA 可 扩展 编程 语言 模型 扩充 了 C/C++ 语言 ,提供 了 3 个 关键 的 抽象 ,包括 层次 结 
构 线 程 组 .同步 机 (synchronization barrier) 和 共享 内 存 。 

通常 ,一 个 数据 并 行 问题 可 以 分 解 成 多 个 不 同 的 子 处 理 任 务 ,这 些 子 任务 之 间 有 些 可 以 
独立 并 行 执行 ,有 些 需要 有 先后 处 理 顺 序 。 每 个 子 任务 中 的 数据 可 以 再 分 解 成 相同 结构 的 
数据 块 ,每 个 数据 块 还 可 以 再 分 解 为 数据 元 素 ,而 且 , 每 个 数据 块 可 以 被 独立 并 行 处 理 , 且 数 
据 块 中 的 元 素 也 可 并 行 计算 。 这 样 , 多 级 的 “任务 一 数据 块 一 数据 元 素 ” 的 划分 正好 对 应 于 
GPU 的 多 级 处 理 单元 “GPU 一 SM 一 SP” 的 划分 。 因 此 ,根据 这 种 层次 化 的 问题 划分 方式 ， 
CUDA 采用 了 “网 格 (grid) 一 线程 块 (thread block) 一 线程 ”的 层次 结构 编程 模型 ,这 就 是 所 
谓 的 层次 结构 线程 组 。 

程序 员 可 以 在 一 个 串 行程 序 中 调用 一 个 并 行 执行 的 核 (kernel) 函数 ,网 格 就 是 执行 相 
同 核 函 数 的 一 组 线程 块 ,相当 于 一 个 子 处 理 任务 。 因 此 ,一 个 网 格 由 若干 个 线程 块 组 成 ,这 
些 线程 块 所 完成 的 任务 就 是 网 格 所 要 实现 的 任务 ,各 个 线程 块 之 间 可 以 独立 并 行 执行 ,没有 
前 后 顺序 关系 。 每 个 线程 块 又 由 若干 个 线程 组 成 ,一 个 线程 块 被 分 配 在 一 个 SM 上 执行 , 因 
此 ,实际 上 在 每 个 SM 中 执行 相同 的 程序 ,程序 的 功能 由 其 线程 块 中 若干 个 线程 实现 ,这 些 
线程 被 发 射 到 SM 中 的 SP、SFU 和 DPU 等 处 理 单元 中 。 

因为 一 个 数据 并 行 问题 所 包含 的 子 任务 之 间 可 能 有 先后 顺序 ,所 以 ,在 对 应 的 每 个 网 格 
之 间 可 以 根据 需要 通过 调用 _syncthreads() 原 语 来 设置 同步 机 ,如 果 给 定 足 够 的 硬件 资源 ， 
那些 独立 的 网 格 就 可 以 并 行 执行 ,而 设置 了 同步 栅 的 网 格 之 间 就 按 顺 序 执行 ,以 保证 前 面 网 
格 所 包含 的 所 有 线程 块 在 后 面 网 格 中 的 线程 开始 执行 前 已 全 部 执行 完 。 

每 个 线程 在 其 执行 期 间 可 能 会 访问 多 个 不 同 的 存储 器 ,包括 局 部 存储 器 .共享 存储 器 和 
全 局 存储 器 。 每 个 线程 具有 一 个 私有 的 局 部 存储 器 (local memory) 用 于 存储 那些 不 适合 在 
线程 寄存 器 中 存储 的 线程 入 有 变量 ,包括 栈 帧 以 及 在 寄存 器 溢出 时 私有 变量 的 分 配 。 每 个 
线程 块 中 的 所 有 线程 都 可 以 访问 SM 中 的 共享 存储 器 ,其 共享 存储 器 的 访问 具有 与 线程 块 
相同 的 生命 周期 。 此 外 ,所 有 线程 都 可 以 访问 全 局 存储 器 。 程 序 可 以 分 别 使 用 _shared_ 和 
_device_ 限 定 词 来 说 明 变 量 处 于 共享 存储 器 还 是 全 局 存储 器 。 共 享 存储 器 是 片上 低 延 时 存 
储 器 ,可 以 在 一 个 线程 块 的 线程 之 间 进 行 高 性 能 的 通信 和 数据 共享 , 核 函 数 代码 在 共享 变量 
中 初始 化 数据 ,使 用 共享 变量 进行 计算 ,并 将 共享 存储 器 中 的 计算 结果 复制 到 全 局 存储 器 
中 。 顺 序 执行 的 网 格 中 的 线程 之 间 通 过 全 局 存储 器 进行 数据 通信 。 

在 基于 NVIDIA GPU 的 架构 上 ,局 部 存储 器 和 全 局 存储 器 都 位 于 GPU 芯片 之 外 的 显 
存 芯 片 中 ,可 以 是 GDDR3、GDDR4 和 GDDR5 等 DRAM 芯片 。 





计算 机 组 成 与 系统 结 欧 (种 2 版 ) 





CUDA 编程 模型 在 网 格 上 类 似 于 单程 序 多 数据 (SPMD) 模 型 。 每 次 调用 核 函 数 相当 于 
动态 创建 了 一 个 新 的 网 格 ,每 个 网 格 包含 多 个 线程 块 ,每 个 线程 块 处 理 一 个 数据 块 ,因此 , 相 
当 于 一 个 核 函 数 在 多 个 数据 块 上 执行 。 程 序 员 可 以 针对 每 个 核 函 数 选 用 适当 的 并 行 度 , 也 
即 , 每 个 网 格 所 包含 的 线程 块 数 和 每 个 线程 块 所 包含 的 线程 数 都 是 可 设置 的 ,不 需要 将 一 个 
应 用 的 所 有 子 任务 对 应 的 网 格 设置 成 相同 的 线程 块 数 。 例 如 , 若 一 个 应 用 被 分 成 两 个 子 任 
务 ,分别 对 应 核 函 数 kernelA 和 kernelB, 这 两 个 核 函 数 对 应 的 网 格 之 间 有 顺序 关系 ,一 定 是 
kernelA 中 的 所 有 线程 块 全 部 执行 完 才 能 执行 kernelB 中 的 线程 块 ,那么 ,在 这 两 个 核 函 数 
之 间 必 须 设置 同步 栅 。 假 定 kernelA 包含 6 个 一 维 线程 块 ,每 个 线性 块 有 10 个 线程 , 则 调 
用 语句 为 kernelA< 和 和 6 ,10y> (params) 。 假 定 kernelB 包含 6X4 的 二 维 线程 块 ,每 个 线 
程 块 包 含 8X3 个 线程 , 则 调用 语句 为 kernelB<< 委 (6 ,4) (8,3) 全 > (params) 。 

CUDA 程序 的 主机 端 代 码 与 普通 C 语言 程序 相同 ,需要 调用 核 函数 时 ,主机 端 通过 执 
行 CUDA 的 API 函数 来 启动 核 函数 ,将 设备 端 二 进 制 代码 传递 给 显卡 。 设 备 端 二 进 制 代 
码 主要 包括 网 格 的 维度 、 线 程 块 的 维度 、 每 个 线程 块 使 用 的 资源 数量 以 及 要 运行 的 指令 序 
列 。 设 备 端 根据 这 些 信 息 将 每 个 线程 块 的 计算 任务 分 配 到 相应 的 SM 中 。 

计算 任务 的 分 配 工作 由 专门 的 计算 调度 器 (computer scheduler) 完 成 ,分 配 的 单位 是 协 
作 线 程 阵列 (Collaborative Thread Arrays,CTA) , 它 是 线程 块 (block) 对 应 的 执行 模型 。 因 
为 一 个 线程 块 中 的 所 有 线程 共享 SM 中 的 共享 存储 器 ,因此 ,一 个 CTA 中 的 所 有 线程 必须 
分 配 到 同一 个 SM 中 ,每 个 CTA 由 若干 个 warp 组 成 。 术 语 warp 源 于 第 一 个 并 行 线程 技 
术 weaving ,用 来 表示 执行 相同 指令 的 一 个 并 行 线程 集合 。warp 是 分 配 在 SM 上 的 一 个 执 
行 单 位 ,CUDA 将 warp 的 大 小 设置 为 32 个 线程 ,因此 ,对 于 最 多 只 能 并 发 执行 512 个 线程 
的 SM 来 说 ,一 个 CTA 最 多 可 有 16 个 warp。 


9.6 本 章 小 结 


本 章 主要 介绍 几 类 典型 并 行 处 理 计算 系统 的 基本 硬件 结构 ,并 简要 介绍 几 种 并 行程 序 
设计 编程 模式 。 根 据 Flynn 分 类 法 ,并 行 处 理 计算 系统 有 SIMD 和 MIMD 两 种 并 行 计 算 模 
式 , 其 中 ,SIMD 是 一 种 数据 级 并 行 模式 ,而 MIMD 是 一 种 并 行程 度 更 高 的 线程 级 并 行 或 线 
程 级 以 上 并 行 计算 模式 。 

MIMD 系统 可 分 为 多 处 理 器 系统 和 多 计算 机 系统 。 前 者 是 共享 存储 多 处 理 器 系统 的 
简称 ,具有 共享 的 单一 地 址 空间 ,因此 ,每 个 处 理 器 都 可 以 通过 LOAD 指令 和 STORE 指令 
访问 系统 中 的 存储 器 ,也 被 称 为 共享 存储 系统 ;后 者 每 个 计算 节点 都 具有 各 自私 有 的 存储 
器 ,并 且 各 自 具 有 独立 的 主 存 地 址 空间 ,通过 消息 传递 方式 进行 数据 传送 ,因此 ,也 称 为 消息 

多 处 理 器 系统 有 UMA、NUMA 和 CC-NUMA 三 类 。UMA 多 处 理 器 系统 中 ,每 个 处 
理 器 对 所 有 存储 单元 的 访问 时 间 是 一 致 的 , 即 , 每 个 处 理 器 通过 LOAD 和 STORE 指令 访 
问 共享 存储 器 时 ,其 访问 时 间 与 处 理 器 和 存储 器 的 相对 位 置 没有 关系 。 因 此 ,UMA 多 处 理 
机 就 是 对 称 多 处 理 机 (SMP)。 因 为 NUMA 多 处 理 器 系统 中 共享 的 存储 空间 分 布 在 不 同 的 
处 理 器 节点 上 ,因此 ,在 节点 互 连 、 并 行 编程 ,cache 一 致 性 方面 所 遇 到 的 问题 与 UMA 多 处 
理 机 不 同 。 处 理 器 中 不 带 高 速 缓存 时 ,系统 被 称 为 NC-NUMA; 处 理 器 中 带 有 一 致 性 高 速 


洋行 处 理 系统 


缓存 时 ,系统 被 称 为 CC-NUMA。 片 级 多 核 处 理 器 系统 中 每 个 处 理 器 核 共享 一 个 统一 编 址 
的 主 存 空 间 ,并 且 访 问 时 间 与 核 的 位 置 无 关 , 因 此 也 属于 UMA 多 处 理 器 系统 。 

多 计算 机 系统 的 典型 代表 是 集群 和 网 格 。 集 群 是 采用 局 域 网 络 连接 的 通过 消息 传递 进 
行 通信 的 紧 耦 合 多 计算 机 系统 。 数 据 库 系统 ,文件 服务 器 Web 服务 器 等 大 型 系统 都 适合 
采用 集群 系统 。 网 格 多 计算 机 系统 是 利用 互联 网 把 分 散在 不 同 地 理 位 置 的 多 个 异 构 的 计算 
机 组 成 一 台 逻 辑 上 的 “虚拟 超级 计算 机 ”。 

SIMD 称 为 数据 级 并 行 技 术 , 主 要 通过 SIMD 指令 处 理 向 量 。 向 量 处 理 机 面向 向 量 型 
数据 进行 并 行 计算 ,在 向 量 各 分 量 上 执行 彼此 无 关 、 各 自 独 立 的 数据 ,主要 有 流水 线 方式 和 
阵列 方式 两 种 。Intel 架构 在 保留 原 有 标量 指令 的 基础 上 增加 了 SIMD 指令 集 , 包 括 MMX、 
SSE 和 AVX 指令 集 。 图 形 处 理 器 GPU 采用 了 类 似 SIMD 的 指令 执行 模式 SIMT, 即 单 指 
令 多 线程 模式 。 

针对 不 同 特点 的 应 用 问题 和 不 同 的 并 行 处 理 硬 件 结构 ,可 以 有 不 同 的 并 行 编程 模型 , 主 
要 分 为 共享 存储 变量 .消息 传递 .MapReduce 以 及 适合 于 CPU 十 GPU 的 CUDA 等 几 种 编 
程 模型 。 
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